Метод определения объекта из ограниченной выборки по нечеткому описанию на естественном языке
Авторы: Брянская Е.В. | |
Опубликовано в выпуске: #1(78)/2023 | |
DOI: 10.18698/2541-8009-2023-1-856 | |
Раздел: Информатика, вычислительная техника и управление | Рубрика: Системный анализ, управление и обработка информации, статистика |
|
Ключевые слова: естественный язык, обработка текстов на естественном языке, онтология, «мешок слов», векторизация, TF-IDF, нечеткие дубликаты, косинусное сходство, семантическая сеть, синтаксический граф |
|
Опубликовано: 15.02.2023 |
Статья посвящена решению проблемы определения объекта из ограниченной выборки по нечеткому описанию на русском языке. Разработанный метод заключается в совмещении двух основных подходов к решению типичных задач в этой области, один из которых базируется на статистическом алгоритме, а второй основан на использовании семантической сети. Для каждого из них требуется своя онтология. Для формирования базы знаний первого этапа используется адаптированный метод TF-IDF, для второго за основу берется совокупность синтаксических графов. Для поиска нечетких дубликатов между запросом пользователя и базой знаний, созданной заранее, применяется косинусное сходство. В работе исследовано влияние размера выборки на меру сходства и точность определения объекта. Проведена оценка доли обращений ко второму шагу предложенного метода, в том числе с целью определить, какая доля этих обращений приходится на неверное предположение, сделанное на первом этапе.
Литература
[1] Большакова Е.И., Воронцов К.В., Ефремова Н.Э. и др. Автоматическая обработка текстов на естественном языке и анализ данных. М., Изд-во НИУ ВШЭ, 2017.
[2] Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. СПб., Питер, 2000.
[3] Srividhya V., Anitha R. Evaluating preprocessing techniques in text categorization. Int. J. Comput. Sci. Appl., 2010, vol. 47, no. 11, pp. 49–51.
[4] Aizawa A. An information-theoretic perspective of TF–IDF measures. Inf. Process. Manag., 2003, vol. 39, no. 1, pp. 45–65. DOI: https://doi.org/10.1016/S0306-4573(02)00021-3
[5] Зиберт А.О., Хрусталев В.И. Разработка системы определения наличия заимствований в работах студентов высших учебных заведений. Алгоритмы поиска нечетких дубликатов. Universum: Технические науки, 2014, № 3. URL: https://7universum.com/ru/tech/archive/item/1139
[6] Преображенский Ю.П., Коновалов В.М. О методах создания рекомендательных систем. Вестник ВИВТ, 2019, № 4, с. 75–79.
[7] Бабкин Э.А., Козырев О.Р., Куркина И.В. Принципы и алгоритмы искусственного интеллекта. Нижний Новгород, НГТУ, 2006.
[8] Теньер Л. Основы структурного синтаксиса. Прогресс, 1988.
[9] Еникеев Р.Д., Рудой Б.П. Двигатели внутреннего сгорания. Основные термины и русско-английские соответствия. М., Машиностроение, 2004.