|

Создание системы автоматической классификации текстовых отзывов на русском языке с помощью машинного обучения

Авторы: Кузнецов Т.А., Гавриленков С.И.
Опубликовано в выпуске: #5(70)/2022
DOI: 10.18698/2541-8009-2022-5-794


Раздел: Информатика, вычислительная техника и управление | Рубрика: Системный анализ, управление и обработка информации, статистика

Ключевые слова: машинное обучение, Индустрия 4.0, обработка естественного языка, классификация текстовых отзывов, автоматизация обработки текстовых отзывов, анализ тональности текстовых отзывов, векторизация текстовых данных, наивный байесовский классификатор

Опубликовано: 24.06.2022

В современной высококонкурентной среде предприятия могут повысить свою гибкость и рентабельность благодаря проведению аналитических исследований текстовых отзывов потребителей. В рамках этих исследований одной из первоначальных задач является определение класса тональности текстового отзыва для понимания общей оценки продукта потребителем. В статье рассмотрена задача классификации текстовых отзывов по классам сентиментов с применением методов машинного обучения. В ходе решения изучены и применены методы векторизации текстовых данных. Проведен сравнительный анализ алгоритмов классификации по классам тональности: алгоритма случайного леса, метода опорных векторов, наивного байесовского классификатора. Выбран алгоритм, показывающий наилучшие показатели по метрикам оценки качества модели классификации. Получена подсистема классификации текстовых отзывов, автоматизирующая процесс анализа текстовых данных в рамках исследования продукции, производимой предприятием.


Литература

[1] Liu B., Zhang L. A survey of opinion mining and sentiment analysis. In: Mining text data. Springer, 2021, pp. 415–463. DOI: https://doi.org/10.1007/978-1-4614-3223-4_13

[2] Pang B., Lee L., Vaithyanathan S. Thumbs up? Sentiment classification using machine learning techniques. Proc. EMNLP, 2002, pp. 79–86. DOI: https://doi.org/10.3115/1118693.1118704

[3] Trstenjak B., Mikac S., Donko D. KNN with TF-IDF based framework for text categorization. Procedia Eng., 2014, vol. 69, pp. 1356–1364. DOI: https://doi.org/10.1016/j.proeng.2014.03.129

[4] Haddi E., Liu X., Shi Y. The role of text pre-processing in sentiment analysis. Procedia Comput. Sci., 2013, vol. 17, pp. 26–32. DOI: https://doi.org/10.1016/j.procs.2013.05.005

[5] Tripathy A., Agrawal A., Rath S.K. Classification of sentimental reviews using machine learning techniques. Procedia Comput. Sci., 2015, vol. 57, pp. 821–829. DOI: https://doi.org/10.1016/j.procs.2015.07.523

[6] Srujan K.S., Nikhil S.S., Raghav Rao H. et al. Classification of Amazon book reviews based on sentiment analysis. In: Information systems design and intelligent applications. Springer, 2018, pp. 401–411. DOI: https://doi.org/10.1007/978-981-10-7512-4_40

[7] Haque T.U., Saber N.N., Shah F.M. Sentiment analysis on large scale Amazon product reviews. Proc. ICIRD, 2018. DOI: https://doi.org/10.1109/ICIRD.2018.8376299

[8] Dey S., Wasif S., Tonmoy D.S. et al. A comparative study of support vector machine and Naive Bayes classifier for sentiment analysis on Amazon product reviews. Proc. IC3A, 2020, pp. 217–220. DOI: https://doi.org/10.1109/IC3A48958.2020.233300

[9] Поляков Е.В., Восков Л.С., Абрамов П.С. и др. Исследование обобщенного подхода к решению задач анализа настроений коротких текстовых сообщений в задачах обработки естественного языка. Информационно-управляющие системы, 2020, № 1, c. 2–14. DOI: https://doi.org/10.31799/1684-8853-2020-1-2-14

[10] Двойникова А.А., Карпов А.А. Аналитический обзор подходов к распознаванию тональности русскоязычных текстовых данных. Информационно-управляющие системы, 2020, № 4, с. 20–30. DOI: https://doi.org/10.31799/1684-8853-2020-4-20-30

[11] Smetanin S. The applications of sentiment analysis for Russian language texts: current challenges and future perspectives. IEEE Access, 2020, vol. 8, pp. 110693–110719. DOI: https://doi.org/10.1109/ACCESS.2020.3002215

[12] Kotelnikov E., Peskisheva T., Kotelnikova A. et al. A comparative study of publicly available Russian sentiment lexicons. Proc. AINL 2018. Springer, 2018, pp. 139–151. DOI: https://doi.org/10.1007/978-3-030-01204-5_14

[13] Medhat W., Hassan A., Korashy H. Sentiment analysis algorithms and applications: a survey. Ain Shams Eng. J., 2014, vol. 5, no. 4, pp. 1093–1113. DOI: https://doi.org/10.1016/j.asej.2014.04.011

[14] Rybakov V., Malafeev A. Aspect-based sentiment analysis of Russian hotel reviews. Proc. AIST-SUP, 2018, pp. 75–84.

[15] Zvonarev A., Bilyi A. A comparison of machine learning methods of sentiment analysis based on Russian language twitter data. Proc. MICSECS, 2019. URL: https://dblp.org/rec/conf/micsecs/ZvonarevB19.html (дата обращения: 15.05.2022).

[16] Mikolov T., Chen K., Corrado G. et al. Efficient estimation of word representations in vector space. Proc. Workshop at ICLR, 2013. DOI: https://doi.org/10.48550/arXiv.1301.3781

[17] Natasha: tools for Russian NLP. github.com: веб-сайт. URL: https://github.com/natasha (дата обращения: 15.05.2022).