|

Сбор и подготовка текстовых данных для задач обработки естественного языка

Авторы: Ладонцев А.Ф.
Опубликовано в выпуске: #6(59)/2021
DOI: 10.18698/2541-8009-2021-6-708


Раздел: Информатика, вычислительная техника и управление | Рубрика: Автоматизация и управление технологическими процессами и производствами

Ключевые слова: компьютерная лингвистика, естественные языки, обработка, анализ тональности, машинное обучение, язык программирования, Python

Опубликовано: 07.07.2021

Изучение компьютерной репрезентации и анализа естественного языка является одним из актуальных направлений исследования современной науки в условиях цифровизации общества. В статье описан один из возможных вариантов сбора и подготовки данных в целях применения методов машинного обучения с учителем для создания классификатора тональностей текстов. В качестве практического материала были выбраны и проанализированы отзывы интернет-пользователей на зарубежную литературу и соответствующие им оценки. В результате получены переменная с текстами отзывов и переменная с соответствующими им оценками, что позволит в дальнейшем осуществить предобработку и использовать эти данные для обучения модели автоматического распознавания тональности текста.


Литература

[1] Большакова Е.И., Клышинский Э.С., Ландэ Д.В. и др. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика. М., МИЭМ, 2011.

[2] Николаев И.С., Митренина О.В., Ландо Т.М., ред. Прикладная и компьютерная лингвистика. М., URSS, 2017.

[3] ВандерПлас Дж. Python для сложных задач: наука о данных и машинное обучение. СПб., Питер, 2018.

[4] Отзывы читателей о книгах Джорджа Мартина. irecommend.ru: веб-сайт. URL: https://irecommend.ru/category/khudozhestvennaya-literatura?tid=2633&tid1=106869 (дата обращения: 25.04.2021).

[5] Webscraper: веб-сайт. URL: https://webscraper.io/ (дата обращения: 25.04.2021).

[6] Python: веб-сайт. URL: https://www.python.org/ (дата обращения: 25.04.2021).

[7] Лутц М. Изучаем Python. М., Вильямс, 2015.

[8] Силен Д., Мейсман А., Али М. Основы Data Science и Big Data. Python и наука о данных. СПб., Питер, 2017.

[9] PyCharm. jetbrains.com: веб-сайт. URL: https://www.jetbrains.com/ru-ru/pycharm/ (дата обращения: 25.04.2021).

[10] Pandas. devdocs.io: веб-сайт. URL: https://devdocs.io/pandas~0.25/ (дата обращения: 25.04.2021).