Подробное описание документа
Соколов М. Н.
Зависимость результата оценки схожести текстов от размера шингла / Соколов М. Н., Трешневская В. О. // Наукоёмкие технологии в приборо- и машиностроении и развитие инновационной деятельности в вузе : материалы Региональной научно-технической конференции (Калуга, 23 - 25 апреля 2024 года) : в 2 т. / МГТУ им. Н. Э. Баумана (национальный исследовательский университет). - 2025. - Т. 2. -
В наше время информации становится настолько много, что человеку не обойтись без автоматизации ее обработки. Нахождение сходства между парами текстов является одной из самых серьезных проблем для автоматической обработки доку-ментов. В данной статье рассмотрено решение задачи определения близости текстовых файлов с использованием метрики Жаккара и алгоритма шинглов. Приведены результаты исследования влияния длины шингла на значение коэффициента сходства на двух экспериментальных наборах данных.
Ключевые слова: анализ данных, сходство, дубликаты, метрика Жаккара, шингл
004.912 Обработка текста. Подготовка текстов
Статья опубликована в следующих изданиях
Т. 2. - 2025. - 457 с. : ил. - Библиогр.