Блог Яндекса для вебмастеров

июль 2008
Магадан 2.0
2 июля 2008, 15:40

С сегодняшнего дня на www.yandex.ru работает поисковая программа "Магадан 2.0". В ней сделано много улучшений в алгоритме ранжирования, например, добавлены новые факторы, учитывающие уникальность контента, классификатор порнографии, геоклассификатор запроса, классификатор коммерциализированности, и многие другие. Следующая остановка -- "Находка".

102 комментария
магадан,локальность
Бюро "Находок"
9 июля 2008, 19:08

Едва пользователи успели привыкнуть к "Магадану 2.0", как команда поиска подготовила тестовую версию "Находки", которая разрабатывалась параллельно. По адресу buki.yandex.ru можно сравнить эту поисковую программу с текущей версией поиска Яндекса и оставить свой отзыв. Мы постараемся учесть ваши предложения и исправить недоработки.

Основные изменения в программе связаны с новым подходом к машинному обучению и, как следствие, отличиями в способе учета факторов ранжирования в формуле.

Предполагаем, что обновление программы на www.yandex.ru произойдет летом или в начале осени.


Александр Садовский, приглашаю к тестированию

95 комментариев
находка
Директива Crawl-delay и поддержка GZIP
24 июля 2008, 18:53
1. Теперь вы можете управлять таймаутом, с которым поисковый робот Яндекса закачивает страницы с вашего сервера (Crawl-delay).

Если сервер сильно нагружен и не успевает отрабатывать запросы на закачку, воспользуйтесь директивой "Crawl-delay". Она позволяет задать поисковому роботу минимальный период времени (в секундах) между концом закачки одной страницы и началом закачки следующей. В целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву "Crawl-delay" необходимо добавлять в группе, начинающейся с записи "User-Agent", непосредственно после директив "Disallow" ("Allow").

Поисковый робот Яндекса поддерживает дробные значения Crawl-Delay, например, 0.5. Это не гарантирует, что поисковый робот будет заходить на ваш сайт каждые полсекунды, но дает роботу больше свободы и позволяет ускорить обход сайта.

 
Примеры:

User-agent: Yandex
Crawl-delay: 2 # задает таймут в 2 секунды

User-agent: *
Disallow: /search
Crawl-delay: 4.5 # задает таймут в 4.5 секунды
 
2. Поддержка GZIP

В роботе добавлена поддержка скачивания сжатого контента. Теперь поисковый робот Яндекса при каждом запросе документа говорит: "Accept-Encoding: gzip,deflate".

Это означает, что настроив соответствующим образом свой веб-сервер, вы сможете снизить объем передаваемого трафика между ним и нашим роботом. Однако следует иметь в виду -- передача контента в сжатом виде увеличивает нагрузку на CPU вашего сервера, и, если он сильно загружен, могут возникнуть проблемы. Поддерживая gzip и deflate, робот придерживается стандарта rfc2616, раздел 3.5 (http://www.w3.org/Protocols/rfc2616/rfc2616-sec3.html#sec3.5).


Иван Наймушин, роботовед
30 комментариев