Герб МГТУ им. Н.Э. БауманаНаучно-техническая библиотека МГТУ им. Н.Э. Баумана

Подробное описание документа

   Статья

Чапаев А. Ю.
   Разработка инструмента для автоматического извлечения параллельных предложений для языка малого народа России / Чапаев А. Ю. ; науч. рук. Козов А. В. // Комплексная автоматизация проектирования и производства (КАПП(М)-2025) : сборник статей 3-ей молодёжной конференции (с международным участием), Москва, 16 мая 2025 года / ред. Карпенко А. П. ; МГТУ им. Н. Э. Баумана (национальный исследовательский университет). - М., 2025. - С. 506-510.

Представлена система автоматического выравнивания русско-мокшанских текстов. Инструмент объединяет классификатор на основе искусственной нейронной сети (ИНС) с архитектурой fastText для определения языка и дообученную для выравнивания предложений ИНС с архитектурой «трансформер». Многошаговый итеративный цикл «ручная разметка → дообучение → поиск новых пар» позволил увеличить исходный корпус с 14 000 до 75 000 корректно выровненных предложений, при этом косинусное сходство параллельных пар выросло с 0,56 до 0,91. Полученные предложения опубликованы в открытый доступ и представляют собой крупный датасет параллельных предложений для мокшанского языка.
Ключевые слова: машинный перевод, выравнивание текстов, параллельные предложения, языки малых народов России, искусственная нейронная сеть

519.766 Модели языков и языковых структур

Статья опубликована в следующих изданиях

с. 506-510
   Комплексная автоматизация проектирования и производства (КАПП(М)-2025) : сборник статей 3-ей молодёжной конференции (с международным участием), Москва, 16 мая 2025 года / ред. Карпенко А. П. ; МГТУ им. Н. Э. Баумана (национальный исследовательский университет). - М. : Изд-во МГТУ им. Н. Э. Баумана, 2025. - 519 с. : ил. - Библиогр. в конце статей. - ISBN 978-5-7038-6641-2.