Подробное описание документа
Мартынюк П. А.
Прототип системы извлечения информации и структурного моделирования = A Prototype System for Information Extraction and Structural Modeling / Мартынюк П. А. // Наука, технологии и бизнес : материалы 6-ой Межвузовской конференции аспирантов, соискателей и молодых учёных, Москва, 16-18 апреля 2024 года / МГТУ им. Н. Э. Баумана (национальный исследовательский университет). - М., 2024. -
Представлен прототип системы, разработанной для автоматизации анализа текстовых документов с целью извлечения информации и получения структурной модели документа. Предложенный подход извлечения информации объединяет предварительно обученные нейронные модели, такие как BERT, с предложенными алгоритмами, предназначенными для обработки векторных представлений слов и предложений. Представленные алгоритмы, предназначенные для выявления обобщающих ответов и удаления дублирующих ответов для объединения информации из различных частей текстового документа, позволяют сформировать структурную модель документа. Кроме того, система включает алгоритмы классификации документов на основе предопределенных рубрик и сравнения моделей документов для оценки их семантической близости. В данном исследовании раскрывается потенциал предложенного подхода для оптимизации процессов анализа документов, предлагая такие преимущества, как сокращение продолжительности анализа, гибкие механизмы настройки и упрощение реализации последующих задач, таких как классификация и сравнение. Стандартизированное представление текстовых документов, предоставляемое системой, открывает возможности для улучшения анализа и извлечения информации, тем самым способствуя прогрессу в области обработки естественного языка и анализа документов.
Ключевые слова: обработка естественного языка, извлечение информации, структурная модель текста, неструктурированный текст, автоматизация анализа текста
This paper presents a prototype system designed for automating the analysis of text documents and intended for information extraction (IE) and document structural modeling. Proposed IE approach integrates pre-trained neural network models, such as BERT, with custom algorithms tailored for processing vector representations of words and sentences. The presented algorithms, aimed at identifying generalizing answers and removing duplicate answers to combine information from various parts of a text document, make it possible to form a structural model of the document. Additionally, the system incorporates algorithms for classifying documents based on predefined rubrics and comparing document models to assess their semantic similarity. This study elucidates proposed approach's potential to streamline document analysis processes, offering advantages such as reduced analysis duration, flexible customization mechanisms, and simplified downstream tasks like classification and comparison. The standardized representation of textual documents provided by the system opens avenues for enhanced analysis and information extraction, thereby contributing to advancements in natural language processing and document analysis.
Keywords: natural language processing, information extraction, text structural model, unstructured text, automation of text analysis
004.94 Имитационное компьютерное моделирование