Самые сложные слова в поисковых запросах

18 сентября 2013, 13:00

Поиск Яндекса автоматически распознаёт ошибки в запросах. Для определения ошибок используются данные о частоте и сочетаемости слов в запросах, история исправлений и уточнений запросов, которые делают сами пользователи, а также статистика употребления слов на крупных сайтах, таких как Википедия.

Основная задача исправления ошибок — восстановить правильное написание запроса, чтобы поиск находил именно то, что нужно пользователю, несмотря на ошибки при вводе. Ошибки или опечатки поиск определяет примерно в каждом десятом запросе.

Иногда правила автоматического исправления могут противоречить словарным нормам. Например, «Таиланд» в 85 случаях из ста пишут в поиске через «й», и с недавних пор поиск Яндекса перестал исправлять эту ошибку — по запросу «Тайланд» он просто ищет оба варианта написания.

Самые частые и самые сложные

Самые часто встречающиеся ошибки — это неправильные написания наиболее используемых в поиске слов. Например, «одноклассники» с одной буквой «с» или через букву «а», «онлайн» с «и» вместо «й» или «скачать» через «я». Таких ошибок много, но сами слова не вызывают большой сложности у пользователей — в августе 2013 года пользователи из России спросили слово «одноклассники» более 70 млн раз, при этом разные ошибки допускали менее чем в 3% случаев.

Есть часто употребляемые слова, которые вызывают у пользователей заметно больше затруднений. Из десяти тысяч самых часто используемых в поиске слов в августе 2013 года чаще всего ошибались в словах «комментарий», «девчонка» и «жесткий».


Наибольшие сложности у пользователей вызывают русские слова с двойными и непроизносимыми согласными, а также слова, заимствованные из других языков.

Новые слова

Для относительно новых слов часто существует несколько вариантов написания — одно и то же слово в разных словарях может писаться по-разному. Поиск Яндекса, руководствуясь статистикой запросов, автоматически определяет вариант, которого придерживается больше всего пользователей, и предлагает исправления для менее распространенных вариантов.

26 комментариев
Подписаться на комментарии к посту
Иногда правила автоматического исправления могут противоречить словарным нормам.

Есть и случаи вопиющего насаждения безграмотности: например, запрос "межпозвонковая грыжа" Яндекс переколодовывает в "межпозвоночную грыжу". Межпозвоночная грыжа может быть разве что у сиамских близнецов, но "Яндекс" подстроился под пользователей, компании подстроились под "Яндекс", и межпозвонковая грыжа - это теперь какой-то артефакт, то чего не существует.



Нам непонятно почему яндекс навязывает безграмотность населению и медицинским центрам, которые вынуждены писать неправильный диагноз для увеличения поисковой выдачи. То есть человек делает МРТ позвоночника и набирает диагноз межпозвонковая грыжа, который был ему поставлен и видит, что в запросе опечатка. Значит врач ошибается! Мы понимаем, что мы- врачи и нас значительно меньше, чем основного населения. В данном конкретном случае нарушаются наши права на правильное использование диагнозов заболевания.


Но Яндекс ещё умеет исправлять смысл запроса.



видео подросток до
видео подросток о

Но почему нет порнухи по запросу
видео подросток за
? Это явная недоработка!

мда…

А Вы не задумывались о том, что у Яндекса поисковая выдача подстраивается под Ваши запросы? Может быть, очень часто искали порно? ;-)

У меня в браузере на yandex.ru отключены скрипты, куки стираются, хранилище, флеш ... IP динамический. А этим поиском я не пользуюсь для того, чтобы что-то искать, скорее по другим причинам.

А про выдачу на скрине это женщина писала, как и письмо по теме. Ну можно ссылку на эту выдачу поставить, читатели этого блога могут убедиться в своих предпочтениях. Этой теме уже пару лет. Любит Яндекс подменять запрос на порно-

Судя по посещенным ссылкам на скриншотах, автор явный поклонник инцеста... :-D

 

twitter.com/grosssefreiheit/status/375362356965957632

Ничего личного, только бизнес.

Вначале хотел улыбнуться..Но посмотрел дальше-стало не до смеха...

Откуда народ берёт букву "й" в слове "выиграть"? Загадка.

из правил украинского языка.

получается - режисер съемки обнаженный групповой жестко девчонки девственность

Я ещё добавлю, что некоторые слова из вашего столбца с правильным написанием требуют присутствия буквы "ё":

жёсткий, жёстко, режиссёр, обнажённый, съёмка

Давайте писать по-русски грамотно.

 

Читай Толстого, дружище!

Видимо, не по теме данного блога, но вызывает недоумение упоминание Толстого. Он букву Ё не употреблял?

И кто он? Л.Н. или А.К. или Пётр Толстой с 1 канала? 

;-)

Букву "ё" в письменной речи следует употреблять лишь в случаях, когда без нее смысл фразы изменится. Например, "люди курят всё" нужно писать с "ё", так как если написать "люди курят все", то это утверждение может быть истолковано неверно. Во всех остальных случаях употребляется символ "е".

да, но это не правило.

Буква "ё" употребляется в словах, в которых она есть. =)

Если следовать всем "странным" правилам, то у нас и кофе - среднего рода и можно писать парашУт. Не стоит идти на поводу у тех, с кем проще согласиться, чем научить грамотности.

Это в известной стране пишут: "I c U." Я всё же не хочу, чтобы русский язык так же не уважали, как американцы относятся к английскому. Пусть уж будет "I see you", условно говоря.

Соавтора "Козьмы Пруткова" забыли.)

Я тоже за Ё голосую, а то Яндекс со своей безграммотностью немного удручает. Тем более плохо, что под него приходится подстраиваться.

Согласна. Пишут же немцы, шведы, датчане, норвеги и многие-многие народы свои буквы с подстрочными и надстрочными символами, и всё в порядке. Сохраняется чистота звучания языка. А то у нас уже местные жители иногда не знают, как правильно произнести: Хорошево-Мневники, или Хорошёво-Мнёвники. И примеров таких - масса!

Давайте любить русский язык.

Это мягкий наезд Яндекса на министра образования? :)

Для меня главное чтоб поисковый запрос неискажался, мол если введу md5 или слова что нет в природе: мухакурабрара, караулябра и прочее если оно есть на странице я хочу чтоб оно мне показало, а не искало другое

Падение грамотности у населения очевидно, и это - печально.

А можно, чтобы ошибки всё же исправлялись и не было ситуации "Тайланд". Я ведь иногда проверяю правильность написания слов, вводя в поиск :-) Интересно, много таких?

Манхэттен, Манхеттен, Манхаттан

(B)(+1)норм но зачем 2 ноута

не могли бы вы посоветовать литературу по анализу текстов. какие сущаетвуют алгоритмы. какие используются в поисковых системах. Заранее спасибо!