Герб МГТУ им. Н.Э. БауманаНаучно-техническая библиотека МГТУ им. Н.Э. Баумана

Подробное описание документа

   Статья в журнале

Артюхин Н. П.
   Метод расширения выборки для обучения модели классификации на основе наложения случайного шума с учетом значений целевого признака / Артюхин Н. П. // Политехнический молодежный журнал МГТУ им. Н. Э. Баумана. - 2025. - № 4. - П.Н. 2.

Скачать документ
Полнотекстовый документ
ptsj.bmstu.ru/catalog/icec/inf_tech/1059.html

Исследована проблема недостаточного количества данных в выборке для обучения модели классификации и применения различных методов ее решения. Проанализирована предметная область данной проблемы и существующие методы увеличения размера обучающей выборки для модели классификации на основе двух подходов: добавление реальных данных и генерация искусственных данных. Сформулированы критерии сравнения данных методов. Разработан новый алгоритм увеличения размера обучающей выборки, которая состоит из структурированных данных, представленных в виде таблицы, на основе наложения случайного шума на числовые признаки и замены значений категориальных признаков наиболее часто встречающимися с учетом значения целевой переменной каждой записи исходной выборки. Исследовано влияние алгоритма увеличения размера выборки на качество модели классификации. Для этого проведено сравнение результатов обучения модели на исходной неувеличенной выборке, а также после применения каждого из рассмотренных методов расширения выборки: добавления реальных данных, добавления случайно сгенерированных данных, добавления перемешанных исходных данных, разработанного метода преобразования исходной выборки. Для оценки качества обученных моделей классификации использован коэффициент Джини. Показано, что в результате применения разработанного алгоритма к исходной обучающей выборке точность прогнозов модели классификации улучшилась и он превосходит аналогичные методы добавления синтетических данных.

Статья опубликована в следующих изданиях

п.н. 2
   Журнал
   Политехнический молодежный журнал МГТУ им. Н. Э. Баумана. - ISSN 2541-8009 (web).
   № 4. - 2025.