Подробное описание документа
Бибиков А. П.
Развитие технологии end-to-end транскрибации речи / Бибиков А. П., Белов Ю. С. // Наукоёмкие технологии в приборо- и машиностроении и развитие инновационной деятельности в вузе : материалы Всероссийской научно-технической конференции, Калуга, 19-21 ноября 2025 г. : в 2 т. / МГТУ им. Н. Э. Баумана (национальный исследовательский университет). - 2025. - Т. 2. -
Рассмотрена история развития сквозных end-to-end алгоритмов транскрибации речевых цифровых аудиоданных. Рассмотрены исторические этапы и пути развития сквозных end-to-end алгоритмов транскрибации речи. Рассмотрен CTC алгоритм транскрибации речи и его конкуррентные преимущества. Рассмотрено развитие CTC алгоритма с помощью применения нейронной BLSTM модели. Рассмотрено развитие CTC алгоритма для осуществления потоковой транскрибации с помощью моделей RNN Transducer и Neural Transducer. Рассмотрен альтернативный путь развития CTC алгоритма в виде Attention LAS модели. Сделаны выводы о дальнейших перспективах развития технологии сквозной транскрибации речевых аудиоданных.
Ключевые слова: нейросети, транскрибация, connectionist temporal classification, RNN transducer, neural transducer, attention LAS
004.93 Распознавание и преобразование образов
Статья опубликована в следующих изданиях
Т. 2. - 2025. - 292 с. : ил. - Библиогр.
