Методы структурного обучения для синтеза алгоритмов поиска нечетких дубликатов в больших массивах текстовых данных
Номер гранта: | 18-07-01441 |
Область научного знания: | инфокоммуникационные технологии и вычислительные системы |
Тип конкурса: | (а)(а) конкурс проектов фундаментальных научных исследований |
Год выполнения: | 2018г. |
Руководитель: | Чехович ЮрийВикторович |
Статус заявки: | поддержана |
Аннотация к заявке:
По мере развития и распространения информационных и сетевых технологий все большую актуальность приобретает проблема поиска нечетких дубликатов текстов или фрагментов текстов. При этом, очень часто речь идет о поиске в больших слабоструктурированных массивах данных: текстах открытых сайтов в сети интернет, полнотекстовых базах данных публикаций, новостных потоков, сообщений и комментариев в социальных сетях, текстовых описаниях товаров и услуг и многих других.В рамках проекта предполагается создание и развитие имеющихся методов структурного машинного обучения, позволяющих синтезировать алгоритмы решения задач выявления полных и нечетких дубликатов, сопоставления описаний объектов, классификации и кластеризации объектов и т.п.Коллектив проекта имеет значительный задел по заявляемой теме в виде разработанных ранее в ВЦ РАН, МГУ, МФТИ методов выявления текстовых заимствований, выявления машинносгенерированных текстов, классификации жанров текстов, выявления эмоциональной окраски текста и многих других.
Аннотации к заявке и отчету приведены в авторской редакции.
по состоянию на 21.09.2023.