Сбор и подготовка текстовых данных для задач обработки естественного языка
Авторы: Ладонцев А.Ф. | |
Опубликовано в выпуске: #6(59)/2021 | |
DOI: 10.18698/2541-8009-2021-6-708 | |
Раздел: Информатика, вычислительная техника и управление | Рубрика: Автоматизация и управление технологическими процессами и производствами |
|
Ключевые слова: компьютерная лингвистика, естественные языки, обработка, анализ тональности, машинное обучение, язык программирования, Python |
|
Опубликовано: 07.07.2021 |
Изучение компьютерной репрезентации и анализа естественного языка является одним из актуальных направлений исследования современной науки в условиях цифровизации общества. В статье описан один из возможных вариантов сбора и подготовки данных в целях применения методов машинного обучения с учителем для создания классификатора тональностей текстов. В качестве практического материала были выбраны и проанализированы отзывы интернет-пользователей на зарубежную литературу и соответствующие им оценки. В результате получены переменная с текстами отзывов и переменная с соответствующими им оценками, что позволит в дальнейшем осуществить предобработку и использовать эти данные для обучения модели автоматического распознавания тональности текста.
Литература
[1] Большакова Е.И., Клышинский Э.С., Ландэ Д.В. и др. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика. М., МИЭМ, 2011.
[2] Николаев И.С., Митренина О.В., Ландо Т.М., ред. Прикладная и компьютерная лингвистика. М., URSS, 2017.
[3] ВандерПлас Дж. Python для сложных задач: наука о данных и машинное обучение. СПб., Питер, 2018.
[4] Отзывы читателей о книгах Джорджа Мартина. irecommend.ru: веб-сайт. URL: https://irecommend.ru/category/khudozhestvennaya-literatura?tid=2633&tid1=106869 (дата обращения: 25.04.2021).
[5] Webscraper: веб-сайт. URL: https://webscraper.io/ (дата обращения: 25.04.2021).
[6] Python: веб-сайт. URL: https://www.python.org/ (дата обращения: 25.04.2021).
[7] Лутц М. Изучаем Python. М., Вильямс, 2015.
[8] Силен Д., Мейсман А., Али М. Основы Data Science и Big Data. Python и наука о данных. СПб., Питер, 2017.
[9] PyCharm. jetbrains.com: веб-сайт. URL: https://www.jetbrains.com/ru-ru/pycharm/ (дата обращения: 25.04.2021).
[10] Pandas. devdocs.io: веб-сайт. URL: https://devdocs.io/pandas~0.25/ (дата обращения: 25.04.2021).