Подробное описание документа

Аналитическое описание

Лысенко О. Д.
Автоматическое распознавание речи для специализированной области / Лысенко О. Д. // Наукоёмкие технологии в приборо- и машиностроении и развитие инновационной деятельности в вузе : материалы Региональной научно-технической конференции (Калуга, 23 - 25 апреля 2024 года) : в 2 т. / МГТУ им. Н. Э. Баумана. - 2025. - Т. 1. - С. 219-223.

Аннотация

Автоматическое распознавание речи (ASR) — это технология, которая преобразует речь в текст. Чтобы обучить модель ASR, нужно подготовить набор данных, содержащий аудиозаписи человеческой речи и соответствующие им текстовые расшифровки. Модель обучается на этом наборе данных, чтобы научиться сопоставлять звуки речи с буквами и словами. Однако перед использованием модель необходимо настроить на конкретную задачу или область применения. Рассмотрен принцип работы автоматического распознавания речи и настройки на специализированные проблемы распознавания. Экспериментальная проверка автоматического распознавания речи и сравнение метрик позволяет сравнить модели и выделить лучшую. Проведен fine-tuning лучшей модели.
Ключевые слова: Automatic Speech Recognition, fine-tuning, модели Automatic Speech Recognition, сравнение моделей

УДК
004.934 Распознавание и преобразование речи

Статья опубликована в следующих изданиях

с. 219-223

Наукоёмкие технологии в приборо- и машиностроении и развитие инновационной деятельности в вузе : материалы Региональной научно-технической конференции (Калуга, 23 - 25 апреля 2024 года) : в 2 т. / МГТУ им. Н. Э. Баумана. - М. : Изд-во МГТУ им. Н. Э. Баумана, 2025. - ISBN 978-5-7038-6513-2.
Т. 1. - 2025. - 436 с. : ил. - Библиогр. в конце статей. - ISBN 978-5-7038-6513-2.

подробнее