Разработка многоязычной лексической базы данных для автоматической обработки текстов

Номер гранта:14-07-92693
Область научного знания:инфокоммуникационные технологии и вычислительные системы
Тип конкурса: (ИНД_а)(инд_а) конкурс совместных российско-индийских исследовательских проектов
Год выполнения:2014г.
Руководитель: Богуславский И.М.
Статус заявки:поддержана

Аннотация к заявке:

Целью проекта является создание многоязычной лексической базы данных, в которой были бы интегрированы следующие ресурсы: 1) универсальный словарь концептов языка UNL (Universal Networking Language), 2) комбинаторный словарь русского языка, 3) онтология SUMO (Suggested Upper Merged Ontology), 4) словари типа Wordnet для 18 языков Индии. Эти лексические ресурсы выполнены в различных формализмах и представляют лексическую информацию с различной степенью детальности, что делает задачу их интеграции нетривиальной. Интегрированная лексическая база данных будет первым компьютерным ресурсом, объединяющим русский язык с 18 крупнейшими языками Индии. Тот факт, что эта интеграция осуществляется на основе компьютерного языка-посредника UNL и онтологии SUMO, закладывает прочную основу для создания целой серии систем машинного перевода между русским и индийскими языками и открывает перспективу преодоления языкового и культурного барьера между нашими странами.

Аннотация к отчету по результатам реализации проекта:

Основным результатом данного проекта стало построение многоязычной лексико-семантической базы данных для приложений автоматической обработки текстов, которая является уникальной по сочетанию входящих в нее языков. Это первый в мире опыт такого рода, охватывающий крупные языки Индии и русский. Новый ресурс интегрирует данные из многих источников: словаря концептов («универсальных слов») языка-посредника UNL, комбинаторного словаря русского языка, ворднета языка хинди и онтологии SUMO. В него вошли свыше 41000 значений для более чем 37700 слов и выражений из ворднета хинди. Благодаря полученному нами «мосту» между русским комбинаторным словарем и ворднетом хинди становится возможным проследить связи между словами русского языка и еще 17 других языков Индии (ассамский, бенгали, бодо, гуджарати, каннада, кашмири, конкани, малаялам, манипури, маратхи, тамильского, телугу, пенджаби, урду, орийя, а также непали и санскрита), которые входят в развиваемый индийскими партнерами проект IndoWordnet. Кроме того, связка со словарем UNL позволяет расширять базу данных за счет всех языков, входящих в консорциум UNL. На сегодня это английский, французский и испанский языки. Новая база данных объединяет сильные стороны лексических сетей (многоязычность, возможность автоматизированного расширения и добавления новых языков за счет традиционных двуязычных словарей и параллельных корпусов), ворднетов (широкий охват лексики естественного языка, детальность кодирования лексических значений) и онтологических ресурсов (формальное описание классов лексических значений, возможность логического вывода о явно неуказанных свойствах значений, ориентация на использование в рамках систем «автоматического понимания»). Это достигается благодаря использованию нейтрального по отношению к естественным языкам набора концептов языка-посредника UNL для кодирования лексических значений и онтологии общего назначения для их классификации. Таким образом, над интегрируемыми словарями естественных языков находятся два метаресурса: словарь концептов семантического языка-посредника UNL и онтология SUMO. Благодаря этому интегрированная база данных может быть использована в широком круге приложений, которые опираются на семантический анализ многоязычных текстов. Для хранения нового ресурса был разработан основанный на стандарте ISO 24613:2008 “Lexical Markup Framework” (LMF) формат представления данных, который позволяет хранить данные семантической сети, состоящей из концептов языка-посредника «Универсальный сетевой язык» (Universal Networking Language, UNL) и связей с лексикой различных естественных языков. В ходе выполнения проекта были расширены и обогащены два лингвистических ресурса - словарь UNL и комбинаторный словарь русского языка. Новая версия словаря UNL была расширена по словнику и дополнена аргументными рамками для ряда предикатных концептов, описанными в терминах концептов UNL. Комбинаторный словарь также был пополнен несколькими классами слов, что позволило устранить ряд лакун. Благодаря данному проекту накоплены данные о семантической интерпретации синтаксических валентностей русских глаголов и отглагольных существительных в терминах совместимой с SUMO онтологии. Выполнены интеграция этого описания в комбинаторный словарь русского языка, а также адаптация семантической классификации концептов UNL в соответствии с онтологией для слов русского языка в комбинаторном словаре. Разработка LMF-формата хранения и представления данных, а также соответствующего ПО для преобразования файлов с данными и обеспечения доступа к данным выполняется партнерами с индийской стороны.
Аннотации к заявке и отчету приведены в авторской редакции. по состоянию на 29.03.2024.
Помог ли вам материал?
0    0