Подробное описание документа
Белоножко П. Е.
Анализ работы вокодера на базе модели WaveRNN в системе преобразования текста в речь / Белоножко П. Е., Белов Ю. С. // Наукоемкие технологии в приборо- и машиностроении и развитие инновационной деятельности в вузе. : материалы Всероссийской научно-технической конференции, Калуга, 14-16 ноября 2023 года : в 2 т. / МГТУ им. Н. Э. Баумана (национальный исследовательский ун-т). Калужский филиал. - 2024. - Т. 1 : Секции 1-11. -
Рассмотрена реализация вокодера на базе модели WaveRNN в системе преобразования текста в речь. Проведено обучение вокодера на различных наборах данных. Представ-лены результаты генерации англоязычной речи в условиях дефицита обучающих дан-ных, просодических помех, транслитерации текстового описания слов языка, не пред-назначенного для генерации. А также представлен набор рекомендаций для обучения модели в данных неблагоприятных условиях. Показана оценка работы вокодера по субъективным и машинным методам, включая MOS (Mean Opinion Score), которая охватывает качество звучания и оценку интонации и выразительности, и метрики просодической точности.
Ключевые слова: синтез речи, WaveRNN, вокодер, TTS-система, просодия, MOS
004.89 Прикладные системы искусственного интеллекта. Интеллектуальные системы, основанные на использовании знаний
Статья опубликована в следующих изданиях
Т. 1 : Секции 1-11. - 2024. - 426 с. : ил. - Библиогр.