О проекте

         Работа посвящена созданию корпуса текстов тувинского языка, который будет включать базу данных тувинских текстов современного и советского периода, а также базы данных грамматических форм (аффиксов, аналитических конструкций) и первичных основ (именных и глагольных) на основные типы слогов. На основе этих баз данных будет создан электронный словарь частотных лексем тувинского языка. Предполагается создание и применение на практике компьютерных программ для автоматизации сбора  и обработки материала для лингвистических исследований в области тувинского языка . Как один из результатов исполнители ставят задачу создание сайта электронного корпуса тувинского языка (проект РГНФ № 11-04-12073в "Электронный корпус текстов тувинского языка",  2011-2013 гг. ) и базы данных лексического фонда тувинского языка (проект РГНФ «Создание базы данных лексического фонда тувинского языка»  №16-04-12020, 2016-2017 гг. ) .

Проект«Создание базы данных лексического фонда тувинского языка» выполняется при поддержке Российского фонда фундаментальных исследований

(РГНФ, №16-04-12020, 2016-2017 гг.)

       Проект «Создание базы данных лексического фонда тувинского языка» (2016-2017 гг.) является продолжением работы по разработке Электронного корпуса текстов тувинского языка (ЭКТТЯ). Электронная база данных лексического фонда тувинского языка представляет собой справочно-поисковую систему, при помощи которой будет автоматизирован поиск необходимой семантической информации из текстов ЭКТТЯ и будет служить основой для создания семантической разметки ЭКТТЯ.

      Разрабатываемая электронная база данных основывается на распределении всех полнозначных лексем тувинского языка на семантические разряды (классы) слов. Условно выделены в четыре базовые семантические классы: Человек, Животное, Предмет, Природные объекты и явления, пронизывающие всю систему лексики. Далее они подразделяются на более дробные семантические подклассы в зависимости от своей частеречной принадлежности (все категории, подклассы и дескрипторы обозначаются тэгами на тувинском, русском и английском языках). База данных позволит эффективно и быстро получать информацию о семантической и стилистической принадлежности лексемы, определять состав лексических единиц, формирующих определенную семантическую область.

     Другой важной и значимой задачей в работе над созданием баз данных лексического фонда тувинского языка является выявление лексической сочетаемости лексем. В автоматизированную систему будут включены семантически допустимые сочетания лексем (двух существительных, прилагательных и существительных, местоимений и существительных, наречий и глаголов, существительных и глаголов). Автоматизированной системой будут исключены семантически недопустимые сочетания. Создание разных пользовательских запросов с учетом семантики позволит уточнить, выявить правила сочетаемости тех или лексических единиц.

     Электронная база данных лексического фонда тувинского языка открывает новые возможности в исследовательской работе в области лексической семантики, а также в лексикографии. Она ускоряет поиск необходимой информации, что экономит время исследователя и расширяет географию пользователей; упрощает работу при создании различных словарей. Базы данных лексического фонда будут использоваться для составления разных типов словарей по тувинскому языку: тематических, объяснительных, словарей сочетаемости, словарей синонимов и антонимов, частотных словарей и т.д.

      Создание электронных баз будет производиться с помощью системы управления баз данных Access 2010. Тексты на тувинском языке будут  обрабатываться с помощью системы объектно-ориентированного программирования С#. Эти системы поддерживают кодировку Unicode, в которой оцифрованы все тексты на тувинском языке. Будут создаваться компьютерные программы как для настольных компьютеров c операционной системой Windows , так и для мобильных устройств с операционной системой Android.

     Над проектом работают научные сотрудники НОЦ «Тюркология» Тувинского государственного университета — языковеды-тюркологи: к. филол. н. Б. Ч. Ооржак  (руководитель проекта), к. филол. н. А. Б. Хертек; ст. преподаватель кафедры тувинской филологии и общего языкознания, к. филол. н. А. Я. Салчак, доцент кафедры русского языка и литературы, к. филол. н. В. С. Ондар ; писатель, переводчик, заведующий литературным музеем ТувГУ М. А. Кужугет ; литератор, доцент кафедры тувинской филологии и общего языкознания, к. филол. н. Е. Т. Чамзырын. Разработку электронных программ производит доцент кафедры информатики, к. физ.- мат. н. С. М. Далаа.

      При создании базы данных используются: Тувинско-русский словарь (20 000 слов [1955], Тувинско-русский словарь (около 22 000 слов) [1968, переиздание 2014], двуязычный Учебный русско-тувинский словарь (32 000 слов) [1980], Толковый словарь тувинского языка (том 1, том 2) [2003, 2011], Топонимический словарь (автор Б.К. Ондар [2004], Шестиязычный словарь названий птиц Тувы и Западной Монголии [1999], Определитель растений Республики Тывы [2007].

 

Проект«Электронный корпус текстов тувинского языка» выполнен при поддержке Российского фонда фундаментальных исследований

(РГНФ, №11-04-12073в, 2011-2013)

     Приоритетным направлением современной прикладной лингвистики является корпусная лингвистика. Корпусная лингвистика определяет общие принципы построения лингвистических корпусов данных (корпусов текстов) с использованием современных компьютерных технологий, разрабатывает методику сбора реальных языковых явлений текстов письменной и устной речи, а также способов их хранения и анализа. Работа с корпусами текстов позволяет в определенной степени абстрагироваться от субъективности исследователя и приблизиться к объективному изучению языка.

   Цель проекта – создание электронного корпуса тувинского языка, систематизированного собрания лингвистических банков данных, предназначенных для последующей комплексной автоматизации научных исследований и прикладных разработок в области тувинского языкознания, реализуемых на персональном компьютере. Основные задачи, которые предполагается решить, заключаются в создании:

  1.  Базы данных тувинских текстов современного и советского периодов в локальной версии (формат базы данных Microsoft Access) и системы управления базой данных;
  2.  Компьютерных программ для автоматизации сбора данных для лингвистических исследований в области тувинского языка (статистический метод);
  3.  Базы данных частотных лексем и первичных именных и глагольных основ и системы управления базой данных (электронный словарь частотных лексем и первичных основ);
  4.  Сайта электронного корпуса тувинских текстов.

Современное состояние в данной области наук, сравнение с мировым уровнем, описание используемых подходов, наличие отечественных и зарубежных аналогов

        Опыт создания электронных корпусов имеется в некоторых тюркских языках. Проект «Шорика», поддержанный Немецким научно-исследовательским обществом (ННИО) и Российским фондом фундаментальных исследований (РФФИ), был выполнен в течение 1999-2001 гг. В результате работы международной группы ученых был создан электронный корпус текстов по шорскому языку с применением четвертой версии программы Shoebox, разработанной с целью документации и помощи в развитии литературной формы бесписьменных и младописьменных языков народов мира.

      Данная проблема не являлась объектом специального изучения в тувинском языке. Необходимость создания электронного корпуса текстов тувинского языка связана с тем, что тувинский язык один из младописьменных тюркских языков и письменность для тувинского языка была создана на основе латинской графики (1930), затем было принято решение о переводе тувинской письменности на русский алфавит (1941). До 30-х годов XX в. тувинцами использовалось старомонгольское письмо, которым владело ламаистское духовенство и чиновничество. На этой графике писались официальные документы, издавалась газета, которые сохранились сегодня в архивах. В данный момент этот материал является недоступным для широкого круга исследователей тюркских языков, хотя именно он может помочь исследователям проследить особенности развития тувинского языка.

Дополнительные возможности реализованного проекта

     Аудио- и визуальные фонды, предполагающие свободный доступ широкого круга специалистов, интересующихся данной проблематикой. Регистрация и получения патента на базы данных, полученных в процессе реализации проекта.

   Научные проблемы, на решение которых направлен проект. Исследование любого яруса языка, в том числе составление многотомных словарей, грамматические исследования, работа в области дискурса с точки зрения языковеда, означает работу с обширными массивами текстов. Это достаточно трудоемкий процесс, требующий не только интеллектуального напряжения, но и затраты времени, особенно на подготовительных этапах. Поэтому необходим переход к новым методам сбора материала, его анализа и новым формам лингвистических источников, которые не только существенно повысят производительность труда, но и откроют путь новым методам и направлениям исследования тувинского языка.

Анализ данной проблемы показывает, что для ее решения первостепенное значение имеет создание электронного корпуса языка.