Подробное описание документа
Зобов О. В.
Масштабируемая гибридная потоковая архитектура для энергоэффективного вывода трансформерных нейронных сетей на ПЛИС / Зобов О. В. // Будущее машиностроения России. Всероссийская конференция молодых учёных и специалистов (с международным участием), 18-я, (Москва, 23 - 26 сентября 2025 года) : сборник докладов : в 2 т. / МГТУ им. Н. Э. Баумана, Союз машиностроителей России. - 2026. - Т. 2. -
Рассмотрена масштабируемая гибридная потоковая архитектура для энергоэффективного вывода трансформерных нейронных сетей на программируемых логических интегральных схемах. Основная идея состоит в том, что последовательные фрагменты вычислительного графа трансформера реализуются как крупнозернистые вычислительные блоки и соединяются в составные потоковые конвейеры; специализированный планировщик управляет порядком их активации и повторного использования во времени, при этом сохраняется высокая пропускная способность, характерная для пространственных архитектур. Предлагается мультипроцессорная организация, в которой отдельные ПЛИС выступают вычислительными узлами, связанными кольцевой межсоединительной сетью; накладные расходы синхронизации перекрываются текущими вычислениями в конвейере. Для открытой модели GPT Neo 355M при постобученном квантовании с 8 битными весами и 8 битными активациями получены задержки на токен 6,72 мс (1 узел), 3,90 мс (2 узла на одной ПЛИС) и 2,58 мс (4 узла на двух ПЛИС). По сравнению с современными ускорителями на ПЛИС временного и пространственного типов достигнуто снижение задержки в 2,05 и 1,63 раза соответственно при сопоставимых или меньших затратах ресурсов. Пропускная способность масштабируется до 388,5 токен/с (4 узла).
Статья опубликована в следующих изданиях
Т. 2. - 2026. - 646 с. : ил. - Библиогр.
