Метод для улучшения точности нейронной сети. При комбинации с другими методами — для ее ускорения
- Дистилляция и DarkKnowledge
- Функции потерь для дистилляции: MSE / KLD / MAE
- Дистилляция для ускорения моделей
- Дистилляция в классических CV-задачах: classification, detection, identification
Научитесь дистиллировать сеть для сегментации людей
3. Low-Precision computing
Квантование нужно для представления нейронной сети через тип данных, меньший исходного. С его помощью она сможет использоваться на устройстве с малыми вычислительными ресурсами
- Quantization aware training как способ улучшения качества нейронной сети
- Нестандартные типы данных: fp16 / fp8 / bfloat16
Научитесь пользоваться фреймворком квантования torch.quantization/qnnpack
- Post-Train quantization как способ заквантовать сетку без головной боли
- Cовременные методы квантования: HAWQ и HAWQ-v2
Метод для сокращения вычислительных операций за счет выброса лишних нейронов
- Критерии прунинга: L1 / L2 / taylor
- Структурированный и неструктурированный прунинг
- Фундаментальные свойства нейронной сети и lottery ticket hypothesis
Научитесь прунить нейронную сеть с фреймворком для структурированного прунинга torch-pruning
8. Инференс на графическом ускорителе. Part 2
Инференс на графическом ускорителе нейронной сети
- Cuda Event: как работают профилировщики на его основе
- Cuda Event: как померить latency отдельных операций на конкретном примере
Научитесь применять квантование на TRT
- TensorRT: как посмотреть оптимизированный граф
- TensorRT [advanced]: как запретить оптимизировать отдельные операции
7. Инференс на графическом ускорителе. Part 1
Инференс на графическом ускорителе нейронной сети
Научитесь применять квантование на TRT
6. Инференс на процессоре
Инференс на процессоре для ускорения нейронной сети
- Базовое устройство процессора
- x86 vs ARM: особенности инференса
Научитесь пользоваться фреймворком для квантования OpenVINO
5. Эффективные архитектуры
Эффективные архитектуры нейронных сетей для решения самых разных задач
- Общие эффективные ахитектуры: MobileOne, FastVit
- Эффективные архитектуры для детекции, или жизнь без Yolo
- Сегментация PIDNet и DDR-Net
Метод для оптимального подбора архитектуры сети под конкретные задачи
- Дифференцируемый и недифференцируемый NAS
- DARTs как основа всех методов для дифф прунинга
- Суперсети и подархитектуры, их связь с прунингом
- Способы обучения суперсетей