|

Метод определения объекта из ограниченной выборки по нечеткому описанию на естественном языке

Авторы: Брянская Е.В.
Опубликовано в выпуске: #1(78)/2023
DOI: 10.18698/2541-8009-2023-1-856


Раздел: Информатика, вычислительная техника и управление | Рубрика: Системный анализ, управление и обработка информации, статистика

Ключевые слова: естественный язык, обработка текстов на естественном языке, онтология, «мешок слов», векторизация, TF-IDF, нечеткие дубликаты, косинусное сходство, семантическая сеть, синтаксический граф

Опубликовано: 15.02.2023

Статья посвящена решению проблемы определения объекта из ограниченной выборки по нечеткому описанию на русском языке. Разработанный метод заключается в совмещении двух основных подходов к решению типичных задач в этой области, один из которых базируется на статистическом алгоритме, а второй основан на использовании семантической сети. Для каждого из них требуется своя онтология. Для формирования базы знаний первого этапа используется адаптированный метод TF-IDF, для второго за основу берется совокупность синтаксических графов. Для поиска нечетких дубликатов между запросом пользователя и базой знаний, созданной заранее, применяется косинусное сходство. В работе исследовано влияние размера выборки на меру сходства и точность определения объекта. Проведена оценка доли обращений ко второму шагу предложенного метода, в том числе с целью определить, какая доля этих обращений приходится на неверное предположение, сделанное на первом этапе.


Литература

[1] Большакова Е.И., Воронцов К.В., Ефремова Н.Э. и др. Автоматическая обработка текстов на естественном языке и анализ данных. М., Изд-во НИУ ВШЭ, 2017.

[2] Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. СПб., Питер, 2000.

[3] Srividhya V., Anitha R. Evaluating preprocessing techniques in text categorization. Int. J. Comput. Sci. Appl., 2010, vol. 47, no. 11, pp. 49–51.

[4] Aizawa A. An information-theoretic perspective of TF–IDF measures. Inf. Process. Manag., 2003, vol. 39, no. 1, pp. 45–65. DOI: https://doi.org/10.1016/S0306-4573(02)00021-3

[5] Зиберт А.О., Хрусталев В.И. Разработка системы определения наличия заимствований в работах студентов высших учебных заведений. Алгоритмы поиска нечетких дубликатов. Universum: Технические науки, 2014, № 3. URL: https://7universum.com/ru/tech/archive/item/1139

[6] Преображенский Ю.П., Коновалов В.М. О методах создания рекомендательных систем. Вестник ВИВТ, 2019, № 4, с. 75–79.

[7] Бабкин Э.А., Козырев О.Р., Куркина И.В. Принципы и алгоритмы искусственного интеллекта. Нижний Новгород, НГТУ, 2006.

[8] Теньер Л. Основы структурного синтаксиса. Прогресс, 1988.

[9] Еникеев Р.Д., Рудой Б.П. Двигатели внутреннего сгорания. Основные термины и русско-английские соответствия. М., Машиностроение, 2004.