Герб МГТУ им. Н.Э. БауманаНаучно-техническая библиотека МГТУ им. Н.Э. Баумана

Подробное описание документа

   Статья

Захаров Е. А., Белов Ю. С.
   Определение тональности речи с использованием моделей Wav2Vec2 и HuBERT / Захаров Е. А., Белов Ю. С. // Наукоёмкие технологии в приборо- и машиностроении и развитие инновационной деятельности в вузе : материалы Всероссийской научно-технической конференции, Калуга, 19-21 ноября 2025 г. : в 2 т. / МГТУ им. Н. Э. Баумана (национальный исследовательский университет). - 2025. - Т. 2. - С. 91-93.

Рассмотрена задача распознавания эмоций по речи с использованием методов глубокого обучения. Для извлечения признаков из аудиосигналов используются трансформерные модели HuBERT и Wav2Vec 2.0, которые автоматически извлекают важные характеристики речи. Далее для анализа временных зависимостей и определения эмоций применяется LSTM-сеть, что позволяет эффективно классифицировать эмоции на основе аудиофайлов, учитывая контекст и динамику речи. Такой подход позволяет получить лучшие результы, чем традиционные методы, такие как SVM и HMM.
Ключевые слова: искусственный интеллект, wav2vec, BERT, HuBERT, LSTM, анализ тональности, обработка аудио, машинное обучение, глубокое обучение

004.89 Прикладные системы искусственного интеллекта. Интеллектуальные системы, основанные на использовании знаний

Статья опубликована в следующих изданиях

с. 91-93
   Наукоёмкие технологии в приборо- и машиностроении и развитие инновационной деятельности в вузе : материалы Всероссийской научно-технической конференции, Калуга, 19-21 ноября 2025 г. : в 2 т. / МГТУ им. Н. Э. Баумана (национальный исследовательский университет). - М. : Изд-во МГТУ им. Н. Э. Баумана, 2025. - ISBN 978-5-7038-6702-0.
   Т. 2. - 2025. - 292 с. : ил. - Библиогр. в конце статей. - ISBN 978-5-7038-6705-1.