Блог Яндекса для вебмастеров

Директива Crawl-delay и поддержка GZIP

24 июля 2008, 18:53
1. Теперь вы можете управлять таймаутом, с которым поисковый робот Яндекса закачивает страницы с вашего сервера (Crawl-delay).

Если сервер сильно нагружен и не успевает отрабатывать запросы на закачку, воспользуйтесь директивой "Crawl-delay". Она позволяет задать поисковому роботу минимальный период времени (в секундах) между концом закачки одной страницы и началом закачки следующей. В целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву "Crawl-delay" необходимо добавлять в группе, начинающейся с записи "User-Agent", непосредственно после директив "Disallow" ("Allow").

Поисковый робот Яндекса поддерживает дробные значения Crawl-Delay, например, 0.5. Это не гарантирует, что поисковый робот будет заходить на ваш сайт каждые полсекунды, но дает роботу больше свободы и позволяет ускорить обход сайта.

 
Примеры:

User-agent: Yandex
Crawl-delay: 2 # задает таймут в 2 секунды

User-agent: *
Disallow: /search
Crawl-delay: 4.5 # задает таймут в 4.5 секунды
 
2. Поддержка GZIP

В роботе добавлена поддержка скачивания сжатого контента. Теперь поисковый робот Яндекса при каждом запросе документа говорит: "Accept-Encoding: gzip,deflate".

Это означает, что настроив соответствующим образом свой веб-сервер, вы сможете снизить объем передаваемого трафика между ним и нашим роботом. Однако следует иметь в виду -- передача контента в сжатом виде увеличивает нагрузку на CPU вашего сервера, и, если он сильно загружен, могут возникнуть проблемы. Поддерживая gzip и deflate, робот придерживается стандарта rfc2616, раздел 3.5 (http://www.w3.org/Protocols/rfc2616/rfc2616-sec3.html#sec3.5).


Иван Наймушин, роботовед
30 комментариев
Подписаться на комментарии к посту
Плюс один
Давайте-давайте, работайте, солнце еще высоко!
Ильин Андрей
24 июля 2008, 23:12
Мне казалось, что после директивы User-agent обязательно должна следовать хотя бы одна директива Disallow или Allow.
Протокол допускает нестандартные расширения, но не говорит, в каком порядке они должны идти. Я, по-крайней мере, ничего такого не обнаружил.
Я таки понял, всем, кто в теме - теперь надо фигачить Crawl-delay: 0.5 ? :)) Или 0 тоже легитимно? :))
Зашибись. Лучше бы вы "Находку" блять пофиксили нормально.
Комментарий удалён
Да, за GZIP отдельное спасибо! Очень хорошая новость!
Ребята, у меня такое чувство, что вам заняться нечем. Всё это, конечно, очень хорошо и замечательно, но лучше вы бы выдачу апали чаще... Сегодняшний дохлый ап меня убивает... Ждать по месяцу индекса новых сайтов?
Вот и замечательно. Давно бы так. С уважением, Дмитрий. http://ecostroyremont.ru
Отлично. Я этого ждал.
"Это тоже эксперимент, который сейчас наблюдают 4% наших пользователей." http://www.constitution.ru/10003000/10003000-4.htm Статья 21.2 2. ... Никто не может быть без добровольного согласия подвергнут медицинским, научным или иным опытам. :) Нехорошо, на нас опыты проводить. -- На гугл аналочичные сервисы давно реализованы, и, вероятно, успешны.
вообще-то с robots.txt проблемы у яндекс-бота
Отлично! На самом дешевом тарифе 1gb.ru яша наконец-то перестал ложить в даун сервер!
Будем тестить
Вообще то Gzip контент Яндекс намного раньше мог принимать, в начале года. Или я ошибаюсь? Просто переводили все на Gzip и сильно переживали, что может отпасть индексация сайта Яндексом. И был удивлен, что поддержка объявлена 24 июля 2008
а какая максимальная величина может быть выставлена? чтобы робот не ушел утомившись ждать периоды?
Пробую на сайте http://www.dowladssoft.ru/ хрен её знает что получится.

Сейчас попробую на сайте http://pluss.info/ посмотрим как пройдёт индексация

Пробую Crawl-delay: 5 для яши у себя

Провильно ли я понимаю, gzip позволяет увеличить количество индексируемых за раз страниц но больше грузит сайт?

 

С уважением, Людмила

(http://sny-sonnik.ru)

Посоветуйте, какое лучше выставить значение директивы Crawl-delay? Сайт на обычном шаред-хостинге, так что нагрузка может оказаться критичной.

 

Спасибо!

http://planetarium.ru/

lebedev.aleksandr2014
16 марта 2013, 20:53

Каккое максимальное значение  Crawl-delay можно выставить? Заранее спасибо.

 скачатьгиф.рф

 Страна быдла  

Зачем максимальное то? Хотите по пол года индексироваться? Я на своем блоге поставил значение в пять секунд, думаю, для shared хостинга это самый оптимальный вариант.

Полезная директива, попробую установить значение 1 на сайте с сотней тысяч страниц товаров RuCables.ru, думаю это будет оптимальным вариантом :)

 

При проверке синтаксиса в панели яндекс:

Disallow: /home/last-comments.html 

User-agent: Yandex
Crawl-delay: 5

Урл разрешен, если удалить строку

User-agent: Yandex

 

Тогда запрещен правилом /home/last-comments-videogallery.html чего собственно и надо.

 

Что не так?

 

 

 

 

 

 

 

 

 

А я попробую поставить 10 на сайт http://usdup.ru/

Вот скажите. Ваши боты нагружают мой форум  http://forumroditeley.ru/  и мне сначала пришлось поставить значение 20 по совету хостера. Часто стали нагружать хостинг! Буквально вчера я выставил значение 40. Это нормально? Правильно я выставил код:
User-agent: *
Disallow: /search
Crawl-delay: 40 # задает таймаут в 40 секунд
Очень жду ответа, так как боты-стучалки на форуме одолели. Как еще ограничить индексацию?
Посоветуйте, пожалуйста, какое оптимальное значение директивы Crawl-delay лучше установить на сайте с тысячью страницами товаров, чтобы нагрузка на хостинг не оказалась критичной для сайта http://www.svetlussole.ru
Спасибо за информацию! На сайте http://www.swe.ru попробую установить 4.
Обновлено 30 ноября 2016, 17:02
Адамчук Александр
23 декабря 2016, 13:23
Сейчас попробую поставить на всегда перегруженные сайты: мужские куртки в Минске и имплантация зубов в Беларуси, если будут проблемы - напишу.
Обновлено 23 декабря 2016, 13:23