Роботы, которые могут игнорировать директивы robots.txt

Некоторые роботы Яндекса скачивают документы не для их последующей индексации, а для других специфичных целей. Для избежания непреднамеренной блокировки владельцами сайтов они могут не следовать ограничивающим директивам файла robots.txt, предназначенным для произвольных роботов (User-agent: *).

Также частичное игнорирование ограничений robots.txt определенных сайтов возможно при наличии соответствующей договоренности между компанией «Яндекс» и владельцами этих сайтов.

Внимание. Если такой робот скачивает документ, не доступный основному роботу Яндекса, этот документ никогда не будет проиндексирован и не попадет в поисковую выдачу.

Список роботов Яндекса, не следующих общим запрещающим правилам в robots.txt:

  • 'YandexAccessibilityBot' скачивает страницы для проверки их доступности пользователям.
  • 'YandexCalendar' регулярно скачивает файлы календарей по инициативе пользователей, которые часто располагаются в запрещенных для индексации каталогах.
  • 'YandexDirect' скачивает информацию о контенте сайтов-партнеров Рекламной сети, чтобы уточнить их тематику для подбора релевантной рекламы.
  • 'YandexDirectDyn' — робот генерации динамических баннеров.
  • 'YaDirectFetcher' скачивает целевые страницы рекламных объявлений для проверки их доступности и уточнения тематики, что необходимо для их размещения в поисковой выдаче и на сайтах-партнерах. При обходе сайта робот не использует файл robots.txt, поэтому игнорирует директивы, установленные для него.
  • 'YandexMedianaBot' — робот сервиса Яндекс.Медиана.
  • 'YandexMetrika' — робот Яндекс.Метрики.
  • 'YandexMobileBot' скачивает документы для последующего их анализа на наличие верстки, подходящей под мобильные устройства.
  • 'YandexOntoDBAPI' — робот объектного ответа, скачивающий динамические данные.
  • 'YandexSearchShop'регулярно скачивает YML-файлы каталогов товаров (по инициативе пользователей), которые часто располагаются в запрещенных для индексации каталогах.
  • 'YandexScreenshotBot' делает снимок страницы.
  • 'YandexTurbo' — робот обходит RSS-канал, созданный для формирования Турбо-страниц. Его максимальная частота обращений к сайту составляет 3 обращения в секунду. Робот игнорирует настройку в интерфейсе Яндекс.Вебмастера и директиву Crawl-delay.
  • 'YandexVideoParser' — индексатор Яндекс.Видео.

Если вас не устраивает данное поведение, можно ограничить им доступ к своему сайту или его части с помощью директив специально для них, например:

User-agent: YandexCalendar
Disallow: /
User-agent: YandexMobileBot
Disallow: /private/*.txt$