Герб МГТУ им. Н.Э. БауманаНаучно-техническая библиотека МГТУ им. Н.Э. Баумана

Подробное описание документа

   Статья

Безлюдов М. Д., Корлякова М. О.
   Анализ качества распознавания речи фреймворка Vosk / Безлюдов М. Д., Корлякова М. О. // Наукоемкие технологии в приборо- и машиностроении и развитие инновационной деятельности в вузе. : материалы Всероссийской научно-технической конференции, Калуга, 14-16 ноября 2023 года : в 2 т. / МГТУ им. Н. Э. Баумана (национальный исследовательский ун-т). Калужский филиал. - 2024. - Т. 1 : Секции 1-11. - С. 188-192.

Рассмотрена одна из наиболее актуальных задач распознавания образов — задача распознавания речи. Рассматривается ее состояние на данный момент: основные сферы применения автоматических систем распознавания речи, основные этапы решения данной задачи и основной ряд проблем, возникающих при ее решении. Так-же, проводится сравнительный анализ особенностей нескольких основных open-source проектов (фреймворков), реализовывающих решение задач класса STT: Yandex Speechkit, Deeppavlov, Aniemore и Vosk. На основании этого анализа для дальнейшей работы был выбран последний фреймворк из данного списка. Целью работы является разработка и тестирование системы, которая способна реализовать распознавание речи в текст, а также оценка основных метрик качества ее работы на основании общепринятых параметров оценки задач данного класса.
Ключевые слова: распознавание речи в текст, транскрибация, анализ фреймворков, анализ метрик

004.522 Речевое взаимодействие

Статья опубликована в следующих изданиях

с. 188-192
   Наукоемкие технологии в приборо- и машиностроении и развитие инновационной деятельности в вузе. : материалы Всероссийской научно-технической конференции, Калуга, 14-16 ноября 2023 года : в 2 т. / МГТУ им. Н. Э. Баумана (национальный исследовательский ун-т). Калужский филиал. - М. : Изд-во МГТУ им. Н. Э. Баумана, 2024. - ISBN 978-5-7038-6244-5.
   Т. 1 : Секции 1-11. - 2024. - 426 с. : ил. - Библиогр. в конце статей. - ISBN 978-5-7038-6266-7.