Сделано Русскими
Лента новостей
Лента новостей
Сегодня
Политика
Общество
Бизнес
Культура
Сделано Русскими
Личные связи
О проекте
Редакция
Контакты
Размещение рекламы
Использование материалов
Запрещенные организации
Свидетельство о регистрации СМИ ЭЛ № ФС 77 – 65733 выдано Роскомнадзором 20.05.2016.
Новости Сделано Русскими
Русская планета
Сделано Русскими

Древнеславянские тексты и летописи станут интерактивными

Российские ученые разрабатывают базу искусственного интеллекта для лингвистов
18 марта, 2020 12:07
4 мин
Фото: МИСиС
Коллаборация ученых Института русского языка им. В.В. Виноградова  РАН, НИТУ «МИСиС», НИУ ВШЭ при поддержке Комиссии по работе с вузами и научным сообществом при Епархиальном совете города Москвы запустила масштабный проект по созданию с помощью технологий искусственного интеллекта и машинного обучения уникальной базы древнеславянских рукописных текстов - корпуса.
Создание корпуса древнеславянского языка даст исследователям-лингвистам и историкам мощный инструмент для изучения всех современных национальных славянских языков и культур и станет уникальным ключом к пониманию их наследия.

Корпус – это структурированная база данных языка,  информационно-справочная система, основанная на собрании текстов на определенном  языке в электронной форме. Он представляет собой подобранную и особым образом обработанную (размеченную) совокупность текстов, которые используются в качестве основы для исследования лексики и грамматики языка

Древнеславянские тексты представляют собой многообразие рукописных памятников XI – XVII веков, фундамент всех современных национальных славянских языков и культур. Создание системного корпуса языка связано с трудоемкой, тонкой и кропотливой работой, требующей объединения усилий профессионалов из различных областей и, по мнению ученых, является задачей общенационального характера.
Иеромонах Родион (Ларионов), заместитель председателя Комиссии по работе с вузами и научным сообществом при Епархиальном совете города Москвы:

«В настоящее время не существует корпуса рукописных славянских текстов, и его создание рассматривается учёными различных дисциплин как важная задача. Основной объем древнеславянских – древнерусских, болгарских, сербских текстов XI – XVII веков, которые дошли до нас – это несколько тысяч богослужебных рукописей.  Язык меняется от века к веку. Для ученых важно понять, во-первых,  почему эти изменения происходят, чем они продиктованы, что влияет на их возникновение, а во-вторых, что эти изменения повлекли за собой.  Если анализировать и систематизировать человеческими ресурсами тот объем данных, который представляют собой древнеславянские рукописи – это астрономическая работа, которая растянулась бы на века, особенно, учитывая, что профессионалов, которые способны делать эту работу, в принципе очень мало. Технологии распознавания и оцифровки текстов, машинного перевода и ИИ позволят провести это важную работу в обозримое время»

Искусственный интеллект позволит охватить весь этот гигантский массив данных, систематизировать и создать алгоритмы расстановки лингвистической разметки – главной характеристики корпуса. Именно она отличает корпус от простой библиотеки.
Проекты по использованию цифровых подходов к анализу культурного наследия активно развиваются в европейских странах и являются прекрасным примером междисциплинарного взаимодействия. В отношении языковых памятников, можно отметить два принципиальных направления работ – преобразование сканированных изображений в «машиночитаемый» вид и построение языковых моделей, упрощающих анализ и понимание текстов. Со славянскими текстами,  написание букв (графем) которых отличается витиеватостью и широким использованием диакритических знаков, таких системных наработок еще не предпринималось.
Андрей Устюжанин, ведущий эксперт Центра инфраструктурного взаимодействия и партнёрства MegaScience НИТУ «МИСиС», руководитель Научно-учебной лаборатории методов анализа больших данных НИУ Высшей школы экономики:

«Естественный язык является ключевым полигоном для развития технологий ИИ. Именно благодаря этим технологиям задачи машинного перевода, построение диалоговых систем и задачи интерпретации текстов на естественном языке получили мощный толчок в последнее время. В некотором смысле, такой проект является мостиком от культуры прошлого к технологиям будущего. По нашему опыту междисциплинарных проектов не так важно заручиться самой продвинутой технологией, как заложить основы общения людей друг с другом – специалистов по языку со специалистами по искусственному интеллекту»

Первым этапом проекта станет оцифровка и разметка комплекса древнеславянских миней XI-XVII веков на древнерусском, болгарском и сербском языках – служебных церковных книг, содержащих распорядок служб всех дней церковного года, рукописи которых хранятся в собраниях Государственного исторического музея, Российской национальной и государственной библиотек, Российского государственного архива древних актов, Свято-Троицкой Сергиевой лавры.
темы
4 мин