Подробное описание документа
Вишняков И. Э.
Выявление и кластеризация шаблонных текстов в больших массивах сообщений / Вишняков И. Э., Иванов И. П., Каркин И. А. - DOI 10.18698/0236-3933-2022-4-20-35 // Вестник МГТУ им. Н. Э. Баумана. Сер. Приборостроение. - 2022. - № 4. -
Многие сервисы используют короткие сообщения для различных целей, например, магазины рассылают акционные предложения, МЧС России информирует население при угрозе возникновения чрезвычайных ситуаций природного и техногенного характера. Выделение из общего трафика коротких текстов шаблонных сообщений можно использовать для фильтрации спама и рассылок, чтобы уберечь пользователей от мошеннических действий. Зачастую такие массивы сообщений достигают настолько больших размеров, что их хранение и обработка на одном выделенном персональном компьютере или сервере попросту невозможны. Разработаны методы эффективного выявления и кластеризации шаблонных текстов из больших массивов коротких сообщений с применением фреймворка для реализации распределенной обработки неструктурированных данных. Рассмотрены методы, позволяющие проводить кластеризацию на больших массивах сообщений с применением распределенных вычислений без предварительного получения векторных представлений текстов. Приведены алгоритмы для эффективного выявления шаблонных сообщений из больших массивов коротких текстов. Выполнено сравнение алгоритмов по производительности и качеству выявления шаблонов Просьба ссылаться на эту статью следующим образом: Вишняков И.Э., Иванов И.П., Каркин И.А. Выявление и кластеризация шаблонных текстов в больших массивах сообщений. Вестник МГТУ им. Н.Э. Баумана. Сер. Приборостроение, 2022, № 4 (141), с. 20–35. DOI: https://doi.org/10.18698/0236-3933-2022-4-20-35
004.421.2 Базовые математические алгоритмы
