Классификация лизинговой документации на основе методов машинного обучения
Авторы: Насибуллин Д.И. | |
Опубликовано в выпуске: #2(97)/2025 | |
DOI: | |
Раздел: Информатика, вычислительная техника и управление | Рубрика: Информационные технологии. Компьютерные технологии. Теория вычислительных машин и систем |
|
Ключевые слова: машинное обучение, классификация текстовой документации, матрица ошибок, автоматизация документооборота, лизинговая документация, метод деревьев принятия решений, метод ближайших соседей, метод опорных векторов, баейсовский классификатор |
|
Опубликовано: 16.04.2025 |
Работа посвящена актуальной задаче использования автоматизированной классификации документов, связанной с необходимостью сокращения времени и количества ошибок при обработке большого числа
документов. Различные лизинговые документы собраны и предварительно разделены на типы. Определены основные алгоритмы машинного обучения, предназначенные для классификации данных. Построены графики тестовых и обучающих выборок, необходимые для определения наиболее приемлемых гиперпараметров моделей, что позволяет достичь лучшего результата предсказания обученных моделей. Проведен анализ и составлена сравнительная характеристика обученных моделей на исследуемых данных. Выявлено, что наиболее подходящей моделью машинного обучения для классификации лизинговой документации является наивный байесовский классификатор. Подчеркнуто, что его преимущество перед другими моделями связано с высокой скоростью обучения и предсказания, а также прогнозированием типа документа с точностью
более 90 %.
Литература
[1] Гусев П.Ю. Обработка текстов и подготовка моделей векторизации для программного комплекса классификации научных текстов. Моделирование, оптимизация и информационные технологии, 2021, № 9(1). https://doi.org/10.26102/2310-6018/2021.32.1.010
[2] Что нужно для оформления лизинга? URL: https://www.ileasing.ru/about/clients/on-leasing/detail/chto-nuzhno-dlya-oformleniya-lizinga/ (дата обращения 20.02.2025).
[3] Чижик А.В., Жеребцова Ю.А. Создание чат-бота: обзор архитектур и векторных представлений текста. International Journal of Open Information Technologies, 2020, № 7 (8), с. 50–56.
[4] Бурлаева Е.И. Обзор методов классификации текстовых документов на основе подхода машинного обучения. Программная инженерия, 2017, № 7 (8), с. 328–336. https://doi.org/10.17587/prin.8.328-336
[5] Попова О.А. Анализ методов векторизации текстовых документов. Вестник РГРТУ, 2023, № 85, с. 96–102. https://doi.org/10.21667/1995-4565-2023-85-96-102
[6] Scikit-learn: machine learning in Python — scikit-learn 1.6.1 documentation. URL: https://scikit-learn.org/stable/index.html (дата обращения 15.02.2025).
[7] Боженко В.В., Клюканов В.К. Применение алгоритмов машинного обучения в задачах классификации и кластеризации. Обработка, передача и защита информации в компьютерных системах. Вторая Междунар. науч. конф.: сб. ст. Санкт-Петербург, ГУАП, 2022, с. 28–33. https://doi.org/10.31799/978-5-8088-1701-2-2022-2-28-33
[8] Бабаев А.М., Шемякина М.А. Обзор классических методов машинного обучения в контексте решения задач классификации. Форум молодых ученых, 2018, № 11 (27), с. 137–142.
[9] Золина Е.В., Гамова Н.А. Наивный классификатор Байеса для решения задачи сентимент-анализа текстов. Шаг в науку, 2019, № 4, с. 140–142.
[10] Михайличенко А.А. Аналитический обзор методов оценки качества алгоритмов классификации в задачах машинного обучения. Вестник АГУ, 2022, № 4 (311), с. 52–59. https://doi.org/10.53598/2410-3225-2022-4-311-52-59