Подробное описание документа
Чапаев А. Ю.
Разработка инструмента для автоматического извлечения параллельных предложений для языка малого народа России / Чапаев А. Ю. ; науч. рук. Козов А. В. // Комплексная автоматизация проектирования и производства (КАПП(М)-2025) : сборник статей 3-ей молодёжной конференции (с международным участием), Москва, 16 мая 2025 года / ред. Карпенко А. П. ; МГТУ им. Н. Э. Баумана (национальный исследовательский университет). - М., 2025. -
Представлена система автоматического выравнивания русско-мокшанских текстов. Инструмент объединяет классификатор на основе искусственной нейронной сети (ИНС) с архитектурой fastText для определения языка и дообученную для выравнивания предложений ИНС с архитектурой «трансформер». Многошаговый итеративный цикл «ручная разметка → дообучение → поиск новых пар» позволил увеличить исходный корпус с 14 000 до 75 000 корректно выровненных предложений, при этом косинусное сходство параллельных пар выросло с 0,56 до 0,91. Полученные предложения опубликованы в открытый доступ и представляют собой крупный датасет параллельных предложений для мокшанского языка.
Ключевые слова: машинный перевод, выравнивание текстов, параллельные предложения, языки малых народов России, искусственная нейронная сеть
519.766 Модели языков и языковых структур
