Метод расширения выборки для обучения модели классификации на основе наложения случайного шума с учетом значений целевого признака

Авторы: Артюхин Н.П.
Опубликовано в выпуске: #4(99)/2025
DOI:
Раздел: Информатика, вычислительная техника и управление \| Рубрика: Информационные технологии. Компьютерные технологии. Теория вычислительных машин и систем
Ключевые слова: машинное обучение, модель классификации, расширение обучающей выборки, преобразование данных, случайная генерация данных, перемешивание данных, структурированные данные, таблицы, коэффициент Джини
Опубликовано: 28.08.2025

Исследована проблема недостаточного количества данных в выборке для обучения модели классификации и применения различных методов ее решения. Проанализирована предметная область данной проблемы и существующие методы увеличения размера обучающей выборки для модели классификации на основе двух подходов: добавление реальных данных и генерация искусственных данных. Сформулированы критерии сравнения данных методов. Разработан новый алгоритм увеличения размера обучающей выборки, которая состоит из структурированных данных, представленных в виде таблицы, на основе наложения случайного шума на числовые признаки и замены значений категориальных признаков наиболее часто встречающимися с учетом значения целевой переменной каждой записи исходной выборки. Исследовано влияние алгоритма увеличения размера выборки на качество модели классификации. Для этого проведено сравнение результатов обучения модели на исходной неувеличенной выборке, а также после применения каждого из рассмотренных методов расширения выборки: добавления реальных данных, добавления случайно сгенерированных данных, добавления перемешанных исходных данных, разработанного метода преобразования исходной выборки. Для оценки качества обученных моделей классификации использован коэффициент Джини. Показано, что в результате применения разработанного алгоритма к исходной обучающей выборке точность прогнозов модели классификации улучшилась и он превосходит аналогичные методы добавления синтетических данных.

Литература

[1] Mumuni A., Mumuni F. Data augmentation: A comprehensive survey of modern approaches. Array, 2022, vol. 16 (6), art. no. 100258. https://doi.org/10.1016/j.array.2022.100258

[2] Мельникова М.Е. Порядок и условия обработки персональных данных. National Science Journal, 2022, № 1, с. 16–21.

[3] Fonseca J., Bacao F. Research Trends and Applications of Data Augmentation Algorithms. NOVA Information Management School, Universidade Nova de Lisboa, 2022. https://doi.org/10.48550/arXiv.2207.08817

[4] Data Augmentation for Machine Learning. URL: https://www.akkio.com/data-augmentation-for-machine-learning (accessed 19.10.2024).

[5] Open Source Data Repositories for ML. URL: https://www.restack.io/p/ci-cd-machine-learning-answer-open-source-data-repositories-cat-ai (accessed 22.10.2024).

[6] Shorten C., Khoshgoftaar T.M. A survey on Image Data Augmentation for Deep Learning. Journal of Big Data, 2019, vol. 6 (1). https://doi.org/10.1186/s40537-019-0197-0

[7] Alomar K., Aysel H.I. Data Augmentation in Classification and Segmentation: A Survey and New Strategies. Journal of Imaging, 2023, vol. 9 (2), art. no. 46. https://doi.org/10.3390/jimaging9020046

[8] Wei S., Zou S., Liao F. A Comparison on Data Augmentation Methods Based on Deep Learning for Audio Classification. Journal of Physics Conference Series, 2020, vol. 1453 (1), art. no. 012085. https://doi.org/10.1088/1742-6596/1453/1/012085

[9] Blagus R., Lusa L. SMOTE for High-Dimensional Class-Imbalanced Data. BMC Bioinformatics, 2013, vol. 106. https://doi.org/10.1186/1471-2105-14-106

[10] Nitesh V.C., Kevin W.B., Lawrence O.H. et al. SMOTE: synthetic minority over-sampling technique. Journal of Artificial Intelligence Research, 2002, vol. 16 (1), pp. 321–357. https://doi.org/10.1613/jair.953

[11] Gini Index: Decision Tree, Formula, Calculator, Gini Coefficient in Machine Learning. URL: https://blog.quantinsti.com/gini-index/ (accessed 02.11.2024).

[12] Farris F.A. The Gini Index and Measures of Inequality. The American Mathematical Monthly, 2010, vol. 117 (10), pp. 851–864. https://doi.org/10.4169/000298910X523344