Разработка методов, моделей и алгоритмов анализа релевантности тематического текстового корпуса единице знаний для распознавания ситуаций смысловой близости текстов
Номер гранта: | 19-01-00006 |
Область научного знания: | математика, механика, информатика |
Тип конкурса: | (а)(а) конкурс проектов фундаментальных научных исследований |
Год выполнения: | 2019г. |
Руководитель: | Емельянов ГеннадийМартинович |
Статус заявки: | поддержана |
Аннотация к заявке:
Целью проекта является разработка и совершенствование теоретических основ выделения единиц языковых и предметных знаний из тематического текстового корпуса для задач оценки смысловой близости и смыслосохраняющего сжатия текстов предметно-ограниченного естественного языка (ЕЯ). Основная идея: релевантность текстового корпуса исходной единице знаний может быть оценена по степени охвата слов исходной фразы наиболее значимыми совокупностями их связей относительно документов, в которых составляющие её образа представлены наиболее полно. Предлагается использовать данную оценку для целенаправленного отбора из текстов корпуса фраз, взаимно эквивалентных либо дополняющих друг друга по смыслу и представляющих единый образ. Формируемые при этом знания о синонимии в естественном языке востребованы в задачах текстовой обработки, требующих установления полной или частичной эквивалентности по смыслу как законченных ЕЯ-предложений и их совокупностей, так и отдельных фрагментов фраз. Конечной практической целью здесь является поиск наиболее рационального варианта передачи смысла в единице знаний, определяемой множеством семантически эквивалентных ЕЯ-фраз. При этом ожидается минимум двукратное сокращение текстовой информации, необходимой для представления выделяемой единицы знаний. При решении задач проекта особое внимание будет уделено статистическим мерам, хорошо зарекомендовавшим себя в задачах анализа текстов и информационного поиска, для выделения в текстах корпуса близких фрагментов знаний и языковых форм их выражения