Русский язык в словаре Даля и поиске Яндекса

29 ноября 2016. По данным поиска Яндекса
Сто пятьдесят лет назад был впервые полностью опубликован словарь Даля 
Первое издание «Толкового словаря живого великорусского языка» В.И. Даля выходило с 1863 по 1866 год.
. Он прославился как словарь именно живого, повседневного языка, на котором говорили в России в середине XIX века. Мы решили посмотреть, насколько сильно с тех пор изменился язык, и сравнили слова из словаря Даля с теми, которые используют люди в поисковых запросах.
Словарь Даля не является нормативным — то есть его далеко не всегда можно использовать для ответа на вопросы «как пишется то или иное слово» или «что значит то или иное слово». Зато он представляет собой уникальный справочник по живому разговорному языку XIX века, который можно читать не как словарь, а просто подряд. Поисковые запросы содержат в том числе и разговорную лексику, так что сравнив слова из словаря со словами из запросов, можно увидеть, какие изменения произошли за 150 лет.
Количество слов в словаре Даля обычно оценивается приблизительно — около 200 тысяч. Это те слова, которые Даль называл «красными», для которых дано толкование. Эти слова организованы в гнёзда — немногим более 40 тысяч гнёзд и, соответственно, гнездовых слов. Читать дальше в блоге Яндекса

Все слова

За год Яндекс отвечает примерно на 70 миллиардов запросов из России. Если по пробелам и специальным символам разделить эти запросы на словоформы, выбрать только те, которые состоят из кириллических букв, и автоматически привести их к начальной форме, получается больше 285 миллионов разных слов. На самом деле далеко не все из них настоящие русские слова: в поиске люди часто пишут с ошибками — [детский мир отзовы], [турагенство] — и в неправильной раскладке — [нщгегиу]
На эту тему читайте старый пост в блоге Яндекса про 1200 способов написать слово «одноклассники».
, а иногда просто вводят непонятные последовательности букв — [аааааааааааааау].
Чтобы сделать этот огромный список слов чище, мы сравнили его со словами из Национального корпуса русского языка за XX и XXI века. Пересечений оказалось всего около 750 тысяч. Можно сказать, что это слова, которые употребляются в современных текстах разных жанров — от художественной литературы до деловых документов
Мы не брали подкорпуса, в которых также высока вероятность встретить ошибки, опечатки и разные странности: бытовые тексты (дневники, личные письма и т.п.), рекламу и электронную коммуникацию (смс, блоги и прочее).
.
Даль даёт толкование примерно двухсот тысяч слов
В этом исследовании все слова и пояснения к ним (определения или просто примеры) даны по электронной републикации словаря на основе 2-го издания (1880–1882).
. Из них почти одна пятая (18%) за год ни разу не встретилась в поисковых запросах к Яндексу. Примерно 38% слов упоминались в запросах, но отсутствовали в корпусе русского языка. В пересечение поиска и корпуса попали 44% слов.

Ушедшие слова

18% слов из словаря Даля можно считать полностью вышедшими из употребления: в течение года люди ничего не искали с помощью этих слов и даже не спрашивали про их значение
В текстах корпуса русского языка за XX—XXI века присутствует всего около 700 таких слов (меньше 0,5% словаря Даля). Эту группу мы в дальнейшем не рассматривали.
.
Доля глаголов среди этих слов заметно больше, чем в словаре в целом, а доля существительных — меньше. Таким образом, глаголы из словаря Даля устаревают быстрее, чем существительные.
Около 85% ушедших глаголов содержат приставки. Самая распространённая, по-, встречается в каждом пятом случае, иногда в комбинации с другими приставками:
Понасудачила кума на всех — только себя позабыла.
,
Попринарядила дочек, и сама попринарядилась.
,
Повзопрела однако лошадка, надо её поводить.
. Почти треть существительных оканчивается на -ье или -ие и означает действие по соответствующему глаголу:
Действие по глаголу «выворачивать».
,
Действие по глаголу «избодать».
,
Занятие рыбной ловлей.
. Много существительных на -чик, -чица, -ник, -ница и так далее. Часто они обозначают людей определённых занятий — как правило, эти занятия больше не актуальны или изменили название:
Парнишка рабочий на шняке, который насаживает на крючки наживу.
,
Кто печёт караваи, торгует ими.
,
Человек, описывающий жизнь и быт народа.
.
Вообще вышедшие из употребления слова часто образованы от корней, которые вполне используются и сейчас:
Старики из лет вышли, переребячились.
,
Склонный ко злодеяньям, насилиям всякого рода.
,
Стать, начать волшебничать.
,
Отблинничали мы, масляна кончилась.
,
К испитию относящийся.
,
Действие по глаголу «поплёвывать».
— сегодня так не говорят, но можно легко догадаться, что имеется в виду.

Живые и уходящие слова

С двумя другими группами слов всё не так просто. Можно предположить, что та часть словаря Даля, которая есть и в поисковых запросах, и в текстах из корпуса русского языка (44%), — это живые слова. А 38%, которые есть в поиске, но отсутствуют в корпусе, — уходящие: их уже не используют в письменной речи, но иногда ищут в интернете. С другой стороны, вряд ли можно назвать живым слово, которое есть в письменных текстах, но встречается в запросах всего несколько раз в год, или слово, которое вводят в поиск только для того, чтобы узнать значение.
Кроме того, часть словаря могла попасть в поиск и корпус из-за омонимии: пишется так же, но значит другое. У Даля встречаются такие популярные в интернете слова, как
Крепко, надёжно, дюже, прочно, споро.
,
Предмет, состоящий как бы из срослых двойней, близнят.
,
Действие по глаголу «прикалывать».
,
Вообще всё клубоватое, образующее клубки.
— но совсем в другом значении. Иногда написание слов у Даля совпадает с распространённой в поиске ошибкой или опечаткой —
Вина, провинность, проступок, ошибка.
,
То же, что «кателка»: деревянное кольцо, обруч.
,
Принужденье, неволя, нужа, силованье; действие стеснительное, обидное, незаконное и своевольное.
,
Действие по глаголу «загачивать», т.е. застилать топкое место хворостом, соломой и засыпать землёю.
. Также бывает, что слово ушло из русского языка, но сохранилось в украинском (
Знак, признак, примета, след.
,
Стыдиться, краснеть, теряться от застенчивости, конфузиться.
,
Мотылёк, бабочка.
), или остались родственные ему фамилии и названия населённых пунктов (
Житель верховых мест, пришедший сверху, по течению реки.
,
Сваебойная баба или притон диких гусей.
,
Жиденькая похлёбка, кашица без привара, вологи.
).
Чтобы точнее определить, какая часть словаря Даля до сих пор жива, а какая вышла или выходит из употребления, мы оценили долю омонимии среди слов, встречавшихся в поисковых запросах, а также посчитали, сколько слов люди искали с целью узнать, что они значат.
Подробнее о методе оценки
Омонимами оказались почти треть изученных слов. Больше всего омонимов — почти 60% — среди тех слов, которые относительно часто, более 1000 раз в течение года, встретились в поисковых запросах, но при этом отсутствовали в текстах из корпуса. А среди таких слов с более высокой частотностью (больше 100 тысяч запросов за год) доля омонимов превысила 80%.
Всего около 8,5% слов из словаря Даля интересуют пользователей в первую очередь в контексте поиска значения. Из них самые популярные:
Наущенье (наустить), тайное подстрекательство, настроенье, подговор.
,
Господство власти народа, черни в управлении; народовластие.
,
Преувеличивать, вдаваться в крайности, превзойти меру, чересчур; хвастать, прикрашать, раздувать.
,
Одножёнство.
и
Поражать, изумлять величием, силою власти, ума и другими истинными или мнимыми качествами; подчинять нравственно, господствовать.
. Большая часть таких слов отсутствует в текстах из корпуса и мало распространена в запросах.

Два с половиной тома словаря Даля

Теперь можно более точно распределить слова из словаря Даля между тремя главными группами: ушедшими, уходящими и живыми.
К вышедшим из употребления отнесли слова, которые ни разу не встретились ни в запросах, ни в текстах из корпуса русского языка, а также те, которые оказались там только из-за омонимии или по ошибке.
К словам, которые уходят из языка и употребляются сейчас крайне редко, причислили следующие:
  • те, которые встретились в поисковых запросах менее 10 раз в год,
  • те, которые сравнительно мало встречались в запросах — десятки или, в редких случаях, сотни раз за год, отсутствовали в корпусе, и для которых в интернете не удалось найти примеров употребления,
  • те, которые искали в первую очередь для того, чтобы узнать значение.
Живыми считали все остальные слова, в том числе мало распространённые специальные термины (
Поплужное, посошное, поральная подать посаднику и тысяцкому, сбор с лемеха, рала.
,
Связывать, скреплять узлом, связкою, верёвкой.
,
Растение Cantaurea jacea et scabiosa.
) — вне зависимости от их частотности в поисковых запросах.
Примерно треть слов из словаря Даля (32%) распространены до сих пор. Ещё чуть меньше 30% — используются, но крайне мало, треть из них — только при поиске значений. Почти 40% слов, или полтора тома всего словаря Даля, полностью вышли из употребления.