Подробное описание документа
Ладонцев А. Ф.
Сбор и подготовка текстовых данных для задач обработки естественного языка / Ладонцев А. Ф. - DOI 10.18698/2541-8009-2021-6-708 // Политехнический молодежный журнал МГТУ им. Н. Э. Баумана. - 2021. - № 6. -
Изучение компьютерной репрезентации и анализа естественного языка является одним из актуальных направлений исследования современной науки в условиях цифровизации общества. В статье описан один из возможных вариантов сбора и подготовки данных в целях применения методов машинного обучения с учителем для создания классификатора тональностей текстов. В качестве практического материала были выбраны и проанализированы отзывы интернет-пользователей на зарубежную литературу и соответствующие им оценки. В результате получены переменная с текстами отзывов и переменная с соответствующими им оценками, что позволит в дальнейшем осуществить предобработку и использовать эти данные для обучения модели автоматического распознавания тональности текста.
