Герб МГТУ им. Н.Э. БауманаНаучно-техническая библиотека МГТУ им. Н.Э. Баумана

Подробное описание документа

   Статья

Соколов М. Н., Трешневская В. О.
   Зависимость результата оценки схожести текстов от размера шингла / Соколов М. Н., Трешневская В. О. // Наукоёмкие технологии в приборо- и машиностроении и развитие инновационной деятельности в вузе : материалы Региональной научно-технической конференции (Калуга, 23 - 25 апреля 2024 года) : в 2 т. / МГТУ им. Н. Э. Баумана (национальный исследовательский университет). - 2025. - Т. 2. - С. 14-17.

В наше время информации становится настолько много, что человеку не обойтись без автоматизации ее обработки. Нахождение сходства между парами текстов является одной из самых серьезных проблем для автоматической обработки доку-ментов. В данной статье рассмотрено решение задачи определения близости текстовых файлов с использованием метрики Жаккара и алгоритма шинглов. Приведены результаты исследования влияния длины шингла на значение коэффициента сходства на двух экспериментальных наборах данных.
Ключевые слова: анализ данных, сходство, дубликаты, метрика Жаккара, шингл

004.912 Обработка текста. Подготовка текстов

Статья опубликована в следующих изданиях

с. 14-17
   Наукоёмкие технологии в приборо- и машиностроении и развитие инновационной деятельности в вузе : материалы Региональной научно-технической конференции (Калуга, 23 - 25 апреля 2024 года) : в 2 т. / МГТУ им. Н. Э. Баумана (национальный исследовательский университет). - М. : Изд-во МГТУ им. Н. Э. Баумана, 2025. - ISBN 978-5-7038-6513-2.
   Т. 2. - 2025. - 457 с. : ил. - Библиогр. в конце статей. - ISBN 978-5-7038-6514-9.