Блог Яндекса для вебмастеров

апрель 2008
Яндекс начал искать по зарубежному интернету
4 апреля 2008, 14:52

Российские пользователи интернета не ограничиваются русскоязычными ресурсами -- им интересны страницы и сайты на разных языках. Примерно 15 процентов запросов к Яндексу не содержат кириллицу.

Яндекс давно индексирует иностранные документы, размещенные в так называемой русскоязычной зоне интернета (домены государств СНГ и крупные сайты со всего мира, полезные русскоязычным пользователям). Теперь мы существенно расширили базу за счет зарубежного интернета. Пока в выдачу по запросу попадает не более одного иностранного документа из этой зоны. Ранжирование происходит в соответствии с общими правилами, то есть, такой документ окажется на первом месте, только если он наиболее соответствует запросу.

Размер базы зарубежного интернета -- примерно 1 млрд веб-страниц, и эта цифра будет расти.

Примеры:

Подмешивание документов из зарубежного интернета в основную выдачу сейчас носит экспериментальный характер. После сбора статистики и пользовательских отзывов ранжирование для таких документов будет значительно улучшено.

 

Команда поиска Яндекса

48 комментариев
локальность
Яндекс исправляет ошибки в запросах
10 апреля 2008, 13:48
Ошибки в поисковых запросах были и остаются темой пристального внимания разработчиков Яндекса. Мы считаем восстановление правильной формулировки запроса важной частью программы повышения качества поиска.

Есть несколько способов работы с опечатками в поисковых запросах: подсказка правильного написания, автозамена, подмешивание (поиск как правильного, так и ошибочного написания). В Яндексе применяются первые два. В тех случаях, когда не хватает уверенности в правильности замены, используется подсказка.

Когда Яндекс считает замену уместной, запрос исправляется автоматически. При этом над результами поиска появляются сообщение об автозамене и ссылка на выдачу по запросу, написанному с ошибкой.

Автоисправление ошибок мы внедряли в несколько этапов. В ноябре прошлого года начали автоматически исправлять и перезадавать запросы, для которых не нашлось ни одного документа. Два месяца мы наблюдали за реакцией пользователей на нововведение, после чего включили автозамену и для ненулевой выдачи.

Сейчас поисковая система ежедневно выявляет опечатки в 2,5 млн запросов (из 25 млн, задаваемых Яндексу). Автоматически исправляется около 1 млн запросов (4% от общего потока): 600 тысяч независимо от количества найденного и 400 тысяч при нулевой выдаче.

Разработчики лингвистических технологий, пишем без ошибок
86 комментариев
Подлетая к "Магадану"
14 апреля 2008, 20:46

В этом году мы начали давать имена версиям поисковой программы и анонсировали, что к середине марта мы подготовим релиз "Магадан". Со времен Brooks-а, исследовавшего причины задержек проектов в IT, мало что изменилось, и мы тоже оказались чрезмерными оптимистами. Релиз был готов к апрелю, потому что до него мы очень хотели научить Яндекс искать по зарубежному интернету и запросам вроде [C#] или [Европа+].

За это время по вопросам и письмам веб-мастеров мы поняли, насколько пристально они наблюдают за прибытием "Магадана", и решили перед окончательным изменением дать возможность потестировать новые результаты.

По адресу buki.yandex.ru можно сравнить поисковую программу "Магадан" с текущей версией поиска и оставить свой отзыв. Мы постараемся учесть предложения и исправить недоработки, если такие будут найдены, и как только поток вопросов иссякнет, обновим программу на www.yandex.ru. Предполагаем, что это может занять несколько недель.

Что меняется в новой программе? Мы увеличили число факторов ранжирования вдвое и улучшили некоторые внедренные ранее. Добавили классификаторы, позволяющих лучше понять тип страницы и тип ссылок. Начали глубже понимать текст страницы и его качество. Изменили технологию поиска так, что мы можем быстро выбрать наиболее релевантные документы в первую очередь и не ждать поиска по остальным страницам. Мы смягчили фильтрацию отбора документов для ранжирования, что привело к улучшению ранжирования по запросам, для которых релевантные документы содержат слова запроса далеко друг от друга, например, [хармс цирк вертунов]. Мы научились обрабатывать при поиске аббревиатуры и написания транслитом (посмотрите, например, запросы [мазда] и [МГУ], обратите внимания на сниппеты). Наиболее заметных улучшений мы смогли достичь в обработке многословных запросов.

Ждем ваших отзывов о "Магадане"! От вас зависит, каким он будет.

 


Команда поиска Яндекса

111 комментариев
магадан