Методы структурного обучения для синтеза алгоритмов поиска нечетких дубликатов в больших массивах текстовых данных

Номер гранта:18-07-01441
Область научного знания:инфокоммуникационные технологии и вычислительные системы
Тип конкурса: (а)(а) конкурс проектов фундаментальных научных исследований
Год выполнения:2018г.
Руководитель: Чехович ЮрийВикторович
Статус заявки:поддержана

Аннотация к заявке:

По мере развития и распространения информационных и сетевых технологий все большую актуальность приобретает проблема поиска нечетких дубликатов текстов или фрагментов текстов. При этом, очень часто речь идет о поиске в больших слабоструктурированных массивах данных: текстах открытых сайтов в сети интернет, полнотекстовых базах данных публикаций, новостных потоков, сообщений и комментариев в социальных сетях, текстовых описаниях товаров и услуг и многих других.В рамках проекта предполагается создание и развитие имеющихся методов структурного машинного обучения, позволяющих синтезировать алгоритмы решения задач выявления полных и нечетких дубликатов, сопоставления описаний объектов, классификации и кластеризации объектов и т.п.Коллектив проекта имеет значительный задел по заявляемой теме в виде разработанных ранее в ВЦ РАН, МГУ, МФТИ методов выявления текстовых заимствований, выявления машинносгенерированных текстов, классификации жанров текстов, выявления эмоциональной окраски текста и многих других.
Аннотации к заявке и отчету приведены в авторской редакции. по состоянию на 19.02.2020.
Помог ли вам материал?
0    0