Эволюция лексического состава языка с точки зрения частотно-ориентированного подхода

Номер гранта:12-06-00404
Область научного знания:естественнонаучные методы исследований в гуманитарных науках
Тип конкурса: («а» (до 2016))(«а») инициативные научные проекты
Год выполнения:2012г.
Руководитель: Бочкарев В.В.
Статус заявки:поддержана

Аннотация к заявке:

Проект направлен на разработку методологии исследований динамики частотности языковых единиц (слов, словосочетаний, сочетаний букв) на материале больших диахронических корпусов текстов. В исследовании будет охвачен возможно более широкий спектр языковых единиц и процессов. Предлагается изучение следующих процессов: - изменение средней длины слов (закономерности, причины) - изменение полного словарного состава языков (введение метода измерения скорости изменения, варьирование скорости для разных языков и временных интервалов) - изменение частотности отдельных слов (форма графика, общие закономерности) - изменение структуры больших семантических полей и классов слов - изменение доли “позитивных” слов в лексике языка - изменение частотности фоносочетаний (закономерности, связь с законами фонетических изменений) - изменение сочетаемости слов. В ходе исследований планируется уточнение законов Ципфа и Хипса. Последний связывает размер текста с объемом словаря этого текста и имеет важные применения в прикладных задачах информационного поиска. Основными массивами используемых данных будут электронная библиотека Google Books (http://ngrams.googlelabs.com/) и Национальный корпус русского языка (НКРЯ, http://ruscorpora.ru). Исследования будут проводиться на материале русского, английского (разные диалекты), немецкого, французского, испанского языков начиная с 1800 г. (в некоторых задачах при наличии достаточного количества данных с 1750 г.) и до наших дней. Для анализа корпусных данных будут применен широкий спектр методов data mining (инетллектуального анализа данных).
Аннотации к заявке и отчету приведены в авторской редакции. по состоянию на 20.07.2019.
Помог ли вам материал?
0    0