Подробное описание документа
Захаров Е. А.
Определение тональности речи с использованием моделей Wav2Vec2 и HuBERT / Захаров Е. А., Белов Ю. С. // Наукоёмкие технологии в приборо- и машиностроении и развитие инновационной деятельности в вузе : материалы Всероссийской научно-технической конференции, Калуга, 19-21 ноября 2025 г. : в 2 т. / МГТУ им. Н. Э. Баумана (национальный исследовательский университет). - 2025. - Т. 2. -
Рассмотрена задача распознавания эмоций по речи с использованием методов глубокого обучения. Для извлечения признаков из аудиосигналов используются трансформерные модели HuBERT и Wav2Vec 2.0, которые автоматически извлекают важные характеристики речи. Далее для анализа временных зависимостей и определения эмоций применяется LSTM-сеть, что позволяет эффективно классифицировать эмоции на основе аудиофайлов, учитывая контекст и динамику речи. Такой подход позволяет получить лучшие результы, чем традиционные методы, такие как SVM и HMM.
Ключевые слова: искусственный интеллект, wav2vec, BERT, HuBERT, LSTM, анализ тональности, обработка аудио, машинное обучение, глубокое обучение
004.89 Прикладные системы искусственного интеллекта. Интеллектуальные системы, основанные на использовании знаний
Статья опубликована в следующих изданиях
Т. 2. - 2025. - 292 с. : ил. - Библиогр.
