Web — гуманизм или чернуха?

Сегодня можно точно ответить — гуманизм, со счетом 404 на 134. Перевес (в три раза) — солидный для нашего времени.

Запустив наконец свою поисковую машину, мы получили удобную возможность исследовать русский Web «от себя лично», не думая о том, что иностранные поисковые машины не понимают русские кодировки и вообще далеко от России, а также не мучаясь над заданием всех склонений и спряжений.

Любители изящной словесности и ревнители русского языка скажут, что сравнение «чернуха» — «гуманизм» слишком прямолинейно и недостаточно для столь сильного вывода. Попробуем привести ряд примеров, которые нам представляются убедительными.

Простейшая антитеза: «добро» — «зло» Получается:
добро [3710] + добрый [10098] +доброта [593] = 14 401
зло [3153] + злой [3248] +злость [453] = 6 854
Соотношение: 14 401/6 854= 2,1

Здесь интересны не столько абсолютные числа, сколько соотношения. Пусть Вас не удивляет, если, поискав другой поисковой машиной, Вы увидите другие числа. Во-первых, Яndex ищет каждое слово во всех его формах. Во-вторых, Яndex находит только разные документы, то есть умеет понимать, что два (три, четыре) документа представляют собой один и тот же текст, но в разных кодировках. Обычно поисковые машины этого не умеют и считают все документы во всех кодировках разными, что сразу обнаруживается в списке найденного. Это значит, что, поскольку на сайтах поддерживается разное количество кодировок, при подобном умножении «сущностей» получается сильно (раза в три) завышенная статистика, но порядок соотношения останется прежним.

Аналогичные примеры:
счастье [6876] + счастливый [5672] = 12 548
несчастье [1301] + несчастливый [208] + несчастный [3082] = 4 591
Соотношение: 12548/4591= 2,73


хорошо [28174] + хороший [26295] = 54 469
плохо [12134] + плохой [6697] = 18 831
Соотношение: 54469/18831= 2,89

Более сложный пример:
любовь [17699] + любимый [9101] + любить [19836] = 46 636

перекрывает не только
ненависть [1313] + ненавистный [306] + ненавидеть [1460] = 2 079

но и большой список вроде
секс [2816] + сексуальный [2803] + порно [123] + порнографический [339] + эротика [554] + эротический [1072] + порнуха [96] = 6 803
Соотношение: 46636 / (2079 + 6803) = 5,25

Набор слов
мерзавец [305] + негодяй [559] + подлец [394] + сволочь [669] = 1 927

перекрывается набором:
вера [7013] + надежда [10450] + любовь [17699] = 35 162

Даже если убрать все имена собственные (наш язык запросов отличает слова с большой и маленькой буквы), то получится


Вера [2570] + Надежда [2375] + Любовь [3357] = 8 302, остается 35162 — 8302 = 26 860

А «неверия» всего 141

Соотношение: 26860/(1927+141)= 11,26

Приведенные результаты оказались для нас самих приятны и несколько неожиданны. Все, кого заинтересовала эта «занимательная арифметика», могут провести собственное исследование, зайдя на сервер yandex.ru и воспользовавшись поисковой системой Яndex-Web. Можно делать и более сложные эксперименты, сравнивать словосочетания (язык запросов Яndex позволяет находить два слова подряд):

Запрос «хороший /1 человек» («хороший» стоит сразу до или сразу после слова «человек», и все это во всех склонениях) находит 308 документов. Запрос «(плохой, нехороший) /1 человек» («плохой» или «нехороший» сразу до или после «человек») — 85. Даже вместе со словом «редиска» (46 документов) проигрывает более чем в 2 раза.

Желаем вам интересных результатов, а мы не удержались от того, чтобы сделать еще несколько сравнений.


оптимист [391] + оптимистка [9] + оптимизм [1065] + оптимистический [403] =1 868
пессимист [186] + пессимистка [0] + пессимизм [175] + пессимистический [180] = 541
Соотношение: 1868/541=3,45


глупый [2518] + тупой [1282] + дурак [2919] + дура [730] +
болван [217] + идиот [1326] + идиотка [38] = 9 030 (обратите внимание на соотношение «дураков» и «дур», кстати, при поиске по шаблону «дур*» эту разницу уловить невозможно)


умный [4240] + разумный [4070] + мудрый [1715] + умница [212] +
мудрец [573] = 10 810

Вопрос на сообразительность: кого больше в русском Интернете — мужчин или женщин, и каково соотношение?

Правильный ответ:
мужчина: 12610, женщина: 27109, пропорция: 2,15

И последнее — некоторое облачко на фоне общей благостной картины:
рождение [11723] чуть-чуть (0,93) уступает смерти [12556], что, кажется, похоже на официальную статистику.


президент [57222] + правительство [49559] = 106 781
народ [24187] + гражданин [30414] + гражданка [391] + гражданочка [16] = 55 008

Как вы думаете, куда надо отнести слово «депутат [19954]»?

Контакты
Компания «Яндекс»
Елена Колмановская, главный редактор
Телефон: +7 495 739-70-00
Факс: +7 495 739-70-70
Электронная почта: pr@yandex-team.ru

Теги

Поделиться

Карьера в Яндексе — создавайте с нами сервисы, которыми пользуются миллионы