Герб МГТУ им. Н.Э. БауманаНаучно-техническая библиотека МГТУ им. Н.Э. Баумана

Подробное описание документа

   Статья

Денисенко М. С., Вершинин Е. В.
   Сравнительный анализ применимости прикладных библиотек на языке Python для морфологического анализа текстовых данных / Денисенко М. С., Вершинин Е. В. // Наукоёмкие технологии в приборо- и машиностроении и развитие инновационной деятельности в вузе : материалы Региональной научно-технической конференции (Калуга, 23 - 25 апреля 2024 года) : в 2 т. / МГТУ им. Н. Э. Баумана (национальный исследовательский университет). - 2025. - Т. 2. - С. 18-23.

Выбраны и проанализированы две библиотеки Python для морфологического анализа текстовых данных, выявлены преимущества и недостатки каждой из них. Сходным образом обработаны входные текстовые данные переменной размерности, измерена скорость исполнения задачи путем замера времени выполнения заданного программного кода, выполняющего разбиение текста на слова и преобразование их к начальной форме слова (лемматизация). Проведен дополнительный тест с повышением количества символов для анализируемого текстового файла для подтверждения или опровержения выдвинутой гипотезы. По результатам проведенной работы и на основании полученных данных сделаны выводы о пригодности и непригодности каждой из систем к определенному роду задач морфологического анализа текстовых данных в практическом применении.
Ключевые слова: системы обработки информации, Python, морфологический анализ, текстовые данные, Pymystem3, Pymorphy2

004.428.4 Пользовательские подпрограммы

Статья опубликована в следующих изданиях

с. 18-23
   Наукоёмкие технологии в приборо- и машиностроении и развитие инновационной деятельности в вузе : материалы Региональной научно-технической конференции (Калуга, 23 - 25 апреля 2024 года) : в 2 т. / МГТУ им. Н. Э. Баумана (национальный исследовательский университет). - М. : Изд-во МГТУ им. Н. Э. Баумана, 2025. - ISBN 978-5-7038-6513-2.
   Т. 2. - 2025. - 457 с. : ил. - Библиогр. в конце статей. - ISBN 978-5-7038-6514-9.