Национальный корпус русского языка

22 апреля 2013, 13:35

Национальный корпус русского языка — крупнейшее электронное собрание текстов, включающее более 500 млн словоупотреблений. Это один из основных источников, к которому обращаются лингвисты, исследующие русский язык. Проект был запущен 9 лет назад, в апреле 2004 года. Корпус пополняется и поддерживается силами многих организаций, среди которых Институт русского языка имени В. В. Виноградова РАН, Институт проблем передачи информации РАН, МГУ и многие другие. С самого начала Яндекс разрабатывал адаптированную для НКРЯ версию поисковой машины для поиска текстов с разного рода разметкой.

Морфологическая разметка текстов корпуса осуществляется автоматически с помощью разработанной в Яндексе программы mystem. Однако у ряда текстов вручную «снята омонимия», то есть для каждого слова указаны его правильная словарная форма и грамматические характеристики. Для многих компьютерных лингвистов эта часть корпуса представляет особый интерес, так как её можно использовать при разработке морфологических анализаторов и для разных вычислительных экспериментов. Мы рады сообщить, что теперь часть текстов со снятой омонимией размером 1 млн словоупотреблений стала доступна для скачивания. Чтобы получить к ней доступ, необходимо зарегистрироваться и подписать лицензионное соглашение.

Команда Национального корпуса русского языка

24 комментария

Авторизуйтесь, чтобы оставить комментарий

Владимир Захаров

26 ноября 2015, 15:41

С ума сойти, 9 лет существует, а я не в курррсе, ребят. Это ж наш Гутенберг получается?

PS. Отсутствие гуглоплюса в "поделиться" - это такая поза?

alexvolkov

26 ноября 2015, 15:41

"Часть корпуса со снятой омонимией объёмом около 1 млн словоупотреблений ".... щедрый подарок.... Учитывая, что согласно вашей же статистике у Вас в базе 364 881 378 словоупотреблений

Алексей

26 ноября 2015, 15:41

Нет, в подкорпусе со снятой омонимией всего 6 млн словоупотреблений.

alexvolkov

26 ноября 2015, 15:41

все равно. не 100%. Пусть дадут все. Без этого наука умрет, нация деградирует и только борщь и орленок будут давать ежемесячный прирост аудитории +10%....

bkman

26 ноября 2015, 15:41

нет, чтобы спасибо сказать. Критиковать вы все горазды.

Кому надо — те возьмут, кому не надо — мимо пройдут.

euvin

26 ноября 2015, 15:41

(+1)

Кровельщики

26 ноября 2015, 15:41

пора в Украине русский язык делать основным - надоела уже гавно мова.

gubina.kiro4ka

26 ноября 2015, 15:41

Почему не сохраняется подкорпус?

Алексей

26 ноября 2015, 15:41

gubina.kiro4ka,

уже исправлено.

Мария М.

25 марта 2016, 01:32

Яндекс, если вы закроете Национальный корпус русского языка, где его можно найти на другом сайте? Дайте ссылку.
И ещё: то, что вы делаете, - чистой воды ВРЕДИТЕЛЬСТВО и ПРЕСТУПЛЕНИЕ. Против русского языка, стало быть, против России.
Я больше вас не уважаю.