Блог Яндекса для вебмастеров

"Скорость обхода" или об изменениях в учёте директивы Crawl-delay

15 февраля, 17:52

В Яндекс.Вебмастере появился новый инструмент — «Скорость обхода», который находится в разделе «Индексирование». Этот инструмент позволяет регулировать, как часто Яндекс может делать запросы к вашему сайту, то есть регулировать скорость обхода вашего сайта со стороны поисковых роботов. По умолчанию мы будем подбирать максимальную скорость для конкретного сайта, учитывая допустимые нагрузки для вашего сервера.

Проанализировав письма за последние два года в нашу поддержку по вопросам индексирования, мы выяснили, что одной из основных причин медленного скачивания документов является неправильно настроенная директива Crawl-delay в robots.txt. Владельцы сайтов часто не задумываются о ней и её значении, и просто ставят такие же значения, как «у других», — как у старых сайтов, серверами которых служили еще «домашние» компьютеры, а не мощные стойки в дата-центрах. Так, порой встречались такие значения, как 20, 50, а порой и 100. И это при том, что если этот показатель был больше 2, скорость обхода сайта сильно снижалась — ведь именно эта директива отвечает за то, как часто робот может обращаться к сайту. В результате ошибочно установленной директивы страницы сайта длительное время не могли проиндексироваться роботом.

Для того чтобы владельцам сайтов не пришлось больше об этом беспокоиться и чтобы все действительно нужные страницы сайтов появлялись и обновлялись в поиске быстро, мы решили отказаться от учёта директивы Crawl-delay. Если же вы все-таки хотите по какой-то причине ограничить скорость обхода сайта, вы можете воспользоваться новым инструментом — «Скорость обхода». Он заменит собой рекомендации из директивы, его настройки можно выставить уже сейчас: они начнут учитываться через неделю, с 22 февраля.

Если вы не знаете, какое именно значение Crawl-delay нужно было устанавливать для вашего сайта или какое теперь значение необходимо установить в настройках инструмента, — просто оставьте значение «Доверять Яндексу». Робот сам выберет наиболее оптимальную частоту индексирования вашего сайта.

Теперь сайты смогут индексироваться еще быстрее!
Команда Поиска

P. S. Подписывайтесь на наши каналы
Блог Яндекса для Вебмастеров
YouTube
Канал для владельцев сайтов в Яндекс.Дзене

46 комментариев
Вы ссылку на YouTube пробывали нажимать в своей записи?
grozovski,
Ну да... Что то пошло не так)
Ну такое
Это Весьма Круто)) Благодарю!)
АлиПросто
15 февраля, 18:31
Что то мне подсказывает, что это к лучшему...
30 запросов в секунду поставить и что будет?
kymap-ha-kymape,
сайт ляжет)) но вообще это же разрешение, а не руководство к действия для роботов
я вот роботов по 2 недели жду на двух сайтах и по приходу они 1-2 страницы добавляют вместо 400-500, так что все это очередное пустотрепство имхо.
Так же не понятно почему есть ограничение на удаление 500 страниц в сутки мне нужно 3000 несуществующих страниц на одном сайте и 700 на другом сайте удалить, так каждый день на протяжении недели надо этим заниматься, почему?
Тоже самое переиндексирование с лимитом в 20 страниц, что это, почему 20, если я изменил описание на 700 страницах, а робот их не обходит, хотя и карта есть и сайт мап и прямые ссылки со страниц, но как 700 страниц по 20, 2 месяца ежедневно по 20 загонять, это норма?
Обновлено 15 февраля, 20:12
Dmitry,
поддерживаю)
Dmitry,
Есть сайты, где лимит гораздо больше, чем 20 страниц на переобход. Но конечно и не 300-700....
ilusha.lacoste,
я тоже слышал, что на Марсе есть жизнь, но живу я - на земле...
Dmitry,
Я не слышал, у меня есть такие проекты... Хотя логика лимитов не ясна, на сайте миллионике в сутки - лимит 180 страниц, на сайте в 500 уников - 120 страниц
Теперь "сайты" смогут баниться еще быстрее!
Команда Поиска
)))
Очень хорошая новость. Однако, я ставил 1 в Crawl-delay
И скорость была хорошей.
Но, вот 30 запросов в секунду - это круто!
По выше написанному, кто-то указал, что сайт ляжет --- НЕ ЛЯЖЕТ, если ты не лох.
Если у тебя безпонтовая Джумла или подобное гамницо, то конечно все плохо.


Но, если ты реальный кодер и пишешь сам с нуля все движки и держишь на отдельном сервере и при этом еще умеешь тюнинговать Nginx + PHP-fpm и создавать собственные вариации кэширования, а еще и работа с оперативной памятью - тогда тебе даже DDOS не страшен.
Еще учтите само железо - модели жестких дисков, скорость оперативки.


Так что - 30 в секунду - это еще мелочь.
stokzzx,
>безпонтовая Джумла
Чисто ради любопытства интересуюсь, а что сейчас понтовое в тренде?
wwwwmaster,
Тренда нет. В данном случае безпонтовое - это когда человек поставил джумлу или иной готовый движок, а потом не знает как его разгонять и сидит мучается с ерундой, типа скорость обращения поисковика к страницам. А такие движки, если начинаешь разгонять - заканчивается тем, что в итоге получается ты его переписал на 90%
А у нас мало самописцев, в основном ставят готовый движок и модули к нему - после этого он считает себя кодером. А я получается безумец :)))
А еще сайт можно держать в оперативке и тогда скорость отклика будет равна скорости оперативки + доставки пакета по http --- на данный момент это максимальная быстрая скорость , что можно получить.
Такую фишку можно сделать даже на VDS (не путать с VPS)
stokzzx,
где можно почитать про загрузку сайта из оперативки или вы это сами делаете и инфы об этом нет?
zhigalov86,
Делаю сам. Под каждый проект делается свой вариант. По поводу почитать - нужно изучать оперативку на уровне железа и операционки. Конкретно инфы о том, как это делать нет. Я раньше сам искал и готовых вариантов не нашел. Тут много от самого проекта зависит. Сайт можно выгружать частями или весь. Например, картинки не все можно выгружать в оперативку, достаточно на отдельный сервер под чистым Nginx кинуть. У каждого проекта вычисляются самые нагрузочные места и они уже закидываются в оперативку. Так же очень важно создать механизм синхронизации и проверки целостности данных, я для этого пишу маленьких роботов которые все это контролируют. При этом синхронизация не должна влиять на скорость работы сайта. Еще можно прикручивать разные HDD и если есть несколько плашек оперативке на сервере, то разделить физические плашки на то что отдается работе самой OS и ее софту и отдельно плашка для выгрузки сайта. Сейчас безумно огромные сервера есть с оперативкой по 100 Гб, 500 Гб. У иностранных провайдеров встречал уже и по 1 Тб. На физическом уровне это разные плашки, вот с этим и можно играть, а с таким объемом можно любой проект запихнуть.
На сколько я изучал сам Яндекс, то по мимо того, что они бьют базу саму на кучу маленьких таблиц, типа как у распределенной базы PostgresSQL, так же они тоже играют с оперативкой.
Потому-что при реально миллиардных запросах на сервера жесткие все равно не будут успевать как бы не распределена была база.
Оперативка в миллион раз быстрей.
Я делал тесты - обошел все главные страницы сайтов в ru зоне, потом сделал ранжирование по словарям и делал Полноконтекстный поиск с учетом всех глаголов, окончаний и т.д. (ну типа как яндекс, только не они эту фишку придумали)
Поиск проводился с жесткого, то у меня искалось около 2-3 минут. А когда загнал в оперативку, то искалось за 0,3-0,5 секунды. От таких тестов я был сам в шоке изначально.
Потом и начал придумывать, что еще можно сделать с оперативкой - так и докатился до сайтов.
Антон Ануфриев
15 февраля, 22:25
Интересно... с одной стороны короче роботс теперь станет, а с другой стороны не отпускает мысль, а все ли нормально будет?
Если я все правильно понял, то Crawl-delay уже можно удалять из роботс?
В качестве пожелания трудящихся:)
Можно ли при выборе опции "Доверять Яндексу" где-нибудь в сторонке увидеть какую скорость уважаемый Яндекс выбрал.

Как говорится - доверяй, но проверяй.
Обновлено 16 февраля, 05:12
naminid,
Поддерживаю)
Естественно вам виднее, мы не такие асы. Будем доверять Яндексу.
Админ "Уроки GIMP"
16 февраля, 07:56
Отлично! Жду кнопки "Поднять себе ТИЦ за усердие", "Поднять себе ТИЦ за честное продвижение" и "Поднять себе ТИЦ за долготерпение" ☺
Админ "Уроки GIMP",
Накой он нужен? Ради зрительного умеления? Вот только клиентам плевать на 'пузомерки'.
Кирилл Бадаев
16 февраля, 13:33
Mr. Edyan,
Скоро и ТИЦа то не будет. Полезен для блога, и то так себе.
Кирилл Бадаев,
 Как он полезен? Для продажи ссылок? Но ведь это противоречит Минусинску и АГС. На ранжирование это явно не влияет, так что, да, ждёт его та же участь, что и PR Гугловский, хотя этого и следовало ожидать )

Это круто, верное решение. Спасибо за труды.
sergej.kirilenko2018
16 февраля, 09:00
Круто, очень полезная фича:).
Опция для 1990 года.
Не думаю, что скорость обхода повлияет на кол-во страниц в индексе. А поэтому и опция не имеет смысла.
hackmysite,
у меня один сайт прирастает новой статьей 3-4 раза в год, а робот Яндекса почему-то его атаковал постоянно, прилично нагружая, пришлось ограничивать.
Раньше, директива Crawl-delay была допустим 2, какое значение выставлять в настройках опции "Скорость обхода" с учетом этой новости?
Обновлено 16 февраля, 09:35
После установки фильтра, роботы за 5 сек положили сайт ) я весь фильтр перековырял думал это он пока не посмотрел логирование запросов ) оказалось что роботы яши и гугла с ожесточением накинулись на сайт крутя всяко разно настройки фильтра и загоняя тысячи страниц в вебмастер )
Что-то намудрили. На мой взгляд, бесполезный инструмент.
webdevelopers39,
Полезный инструмент, если у тебя сайт от 100.000 страниц  И эти страницы раз в месяц обновляются.
Обновлено 16 февраля, 11:35
stokzzx,
 Да-да! Все верно...
Лазарев Роман
16 февраля, 13:03
Вопрос, это коснется каким ни будь образом для /sitemap.xml какие там приоритеты стоят?
Лазарев Роман,
Сначала приоритет отдается настройкам вебмастера, далее xml или robots, смотря что-где поставлено.
Лазарев Роман
16 февраля, 13:49
stokzzx,
ну в robots.txt у меня не чего не стоит, а в sitemap.xml есть настройки, они CMS управляются. Я в .htaccess закрыл доступ не нужным роботам и нагрузка упала процентов 70-80. Яндексу и Google дал зеленый свет! 
Лазарев Роман,
Закрывать роботов через htaccess - это какая-то дикость, мне кажется. Для роботов есть robots.txt с директивой User-agent.
Через htaccess можно закрывать других граберов-парсеров.
Если Вы работаете через htaccess - значит у вас стоит веб-сервер Apache - первая версия была медленной, но ела 5 мегов оперативки. 
А сейчас у всех Апач второй версии, а он жрет 20 мегов.
Не удивительно, что зайдя одновременно робот поисковой и настоящий человек - появлялась нагрузка. 
Лучше уйти с Апача. Тогда на маленький VDS/VPS можно держать нормальные нагрузки.
А еще уходите на PHP 7 версии - его написали заново с нуля и он очень быстро работает.
А если, у вас старый движок и вынуждены сидеть на Апаче - то докупайте процессорное время и оперативку.
Вы сказали, что закрыли не нужных роботов, интересно каких? Случайно не mail.ru или bing?
С них тоже хороший траф идет, хотя mail.ru в последний год очень медленно стал работать, так как у компании нет денег на увеличение дата-центра, а при этом объемы данных растут - каждый день открывается по 1000 ГавноСайтов. Богатый, но за**авшийся яндекс должен все это гамницо индексировать.
Лазарев Роман
16 февраля, 19:53
stokzzx,
Роботов закрыл, когда хостинг начал ругаться, что сайт дает большие нагрузки, покопавшись в логах, нашел виновников, я не думаю, что ниже перечисленные товарищи мне нужны!


ahrefsbot
baiduspider
slurp
mj12bot
MJ12bot
semrushbot
MegaIndex.ru
HaosouSpider
cfnetwork


Половина китайских товарищей, половина различные СЕО сервисы! Заблокировав их нагрузка упала на 70-80% и с этими товарищами robots.txt вряд ли поможет!


Движок у меня последней версии MODx, все настроено работает быстро + PHP 7.1 
Не могу скрин приложить, а что это значит?


10.02.       -/robots.txt            недостаточно качественная


ошибок нет. файл как файл , без изысков и не перегружен... Первый раз такое. Я не могу прибавить качества на эту страницу )  
Эачастую для одного из наших сайтот в силу некоторых технологих особенностей как раз таки нужно ограничить а не увеличиаатьскорость обхожода. Предлагается ли двучсторонняя регугулировка этого процесса?
Alex,
увеличить скорость обхожода очень просто – закажи директ.
Вообще Crawl-delay вполне достаточно. Зачем эти дубли фич. Главное чтобы робот следовал этим указаниям и этого достаточно. Лично меня вполне устраивает
Вот за что я люблю Яндекс! Молодцы, всегда думают о пользователях и не забывают про вебмастеров!
Спасибо что стараетесь улучшить Вебмастер. В отличии от G у вас панель управления гораздо приятнее, функциональнее и информативнее.