Теперь пользователи Яндекса сами создают Орфографический словарь

14 июля 2005, 20:26
На этой неделе была запущена новая проверка орфографии на поиске. Раньше, если введенное слово оказывалось «плохим» (его не было в словаре, в интернете находилось мало страниц, содержащих это слово), то Яндекс брал на себя смелость предлагать исправить это «плохое», по его мнению, слово на «хорошее». В этом случае под строкой поиска появлялась фраза «опечатка? возможно, имелось в виду: [предлагаемое «хорошее» слово]». «Обычный» словарь – это, конечно, хорошо. Но в наше время, когда новые слова появляются чуть ли не каждый день, поддерживать актуальность словаря невозможно. Сами посудите, ежедневно регистрируются новые фирмы, появляются новые музыкальные группы, новые спортсмены выигрывают новые соревнования. Возникающие при этом новые слова часто бывают непроизносимыми, нечитаемыми и даже непечатными. Например, все знают, что такое тхэквондо, а как оно правильно пишется? Тхэквондо, тайквондо, тейквондо, тхеквандо, тхеквондо, тэйквондо? Какое слово нужно набрать в поисковой строке? Как учитывать новые слова и не считать их опечатками? Разбором и анализом таких ситуаций в Яндексе как раз и занимается новый алгоритм, автоматически строящий словарь исправлений. Запросы пользователей собираются и анализируются, обрабатывается статистика. Если оказывается, что по какому-то слову есть много вариантов исправлений, то из кластера выбирается похожее слово из наиболее распространенных в интернете. Таким образом, появляется база пар «плохих» и «хороших» слов – слов с ошибками и исправленных, и каждое слово в запросе пользователя теперь проверяется по такому «народному» словарю. Сами попробуйте, любое слово из приведенного выше списка будет предложено исправить на «тхэквондо», так как именно этот вариант написания наиболее употребим в интернете. Получается, что пользователи Яндекса теперь сами создают свой Орфографический словарь. Ошибайтесь чаще, и ваши ошибки помогут вашим товарищам!
Алексей Пяллинг, разработчик поисковых сервисов