Метод для улучшения точности нейронной сети. При комбинации с другими методами — для ее ускорения
- Дистилляция и DarkKnowledge
- Функции потерь для дистилляции: MSE / KLD / MAE
- Дистилляция для ускорения моделей
- Дистилляция в классических CV-задачах: classification, detection, identification
Научитесь дистиллировать сеть для сегментации людей
Метод для сокращения вычислительных операций за счет выброса лишних нейронов
- Критерии прунинга: L1 / L2 / taylor
- Структурированный и неструктурированный прунинг
- Фундаментальные свойства нейронной сети и lottery ticket hypothesis
Научитесь прунить нейронную сеть с фреймворком для структурированного прунинга torch-pruning
Низкоранговые разложения для изменения архитектуры сети — комбинации более лёгких операций
- Разложение в тензорный поезд
Научитесь пользоваться фреймворком tensorly для задач ускорения
4. Low-Precision computing
Квантование нужно для представления нейронной сети через тип данных, меньший исходного. С его помощью она сможет использоваться на устройстве с малыми вычислительными ресурсами
- Quantization aware training как способ улучшения качества нейронной сети
- Нестандартные типы данных: fp16 / fp8 / bfloat16
Научитесь пользоваться фреймворком квантования torch.quantization/qnnpack
- Post-Train quantization как способ заквантовать сетку без головной боли
- Cовременные методы квантования: HAWQ и HAWQ-v2
Метод для оптимального подбора архитектуры сети под конкретные задачи
- Дифференцируемый и недифференцируемый NAS
- DARTs как основа всех методов для дифф прунинга
- Суперсети и подархитектуры, их связь с прунингом
6. Эффективные архитектуры
Эффективные архитектуры нейронных сетей для решения самых разных задач
- Общие эффективные ахитектуры: MobileOne, FastVit
- Эффективные архитектуры для детекции, или жизнь без Yolo
- Сегментация PIDNet и DDR-Net
- Способы обучения суперсетей
7. Инференс на процессоре
Инференс на процессоре для ускорения нейронной сети
- Базовое устройство процессора
- x86 vs ARM: особенности инференса
8. Инференс на графическом ускорителе. Part 1
Инференс на графическом ускорителе нейронной сети
Научитесь пользоваться фреймворком для квантования OpenVINO
Научитесь применять квантование на TRT
9. Инференс на графическом ускорителе. Part 2
Инференс на графическом ускорителе нейронной сети
- Cuda Event: как работают профилировщики на его основе
- Cuda Event: как померить latency отдельных операций на конкретном примере
10. Рынок специализированных процессоров
Особенности рынка специализированных процессоров: стоит ли нам ждать очередного киллера GPU?
- Принципы работы систоллического массива
- Трудности проектирования тензорных процессоров
- Актуальные события в области: основные игроки и их подходы
Научитесь применять квантование на TRT
Напишите свой систоллический массив
- TensorRT: как посмотреть оптимизированный граф
- TensorRT [advanced]: как запретить оптимизировать отдельные операции