Платон Щукин

Почему робот не следует установленным в robots.txt правилам

26 февраля 2015, 17:01
Иногда страницы, файлы или документы, закрытые от индексирующих роботов в файле robots.txt, могут попасть в результаты поиска и стать доступными для пользователей поисковой системы. Поскольку зачастую такие ситуации вызывают у владельцев сайтов не только удивление, но и негодование, я поясню, почему это может происходить.

Стоит особо отметить, что индексирующий робот Яндекса при обходе любого сайта строго соблюдает те правила, которые заданы в robots.txt. Этот файл служит для него своеобразной инструкцией, которую нельзя нарушать. Чтобы все установленные директивы использовались роботом при посещении сайта, необходимо соблюдать ряд условий:
  • Файл robots.txt должен располагаться в корневом каталоге сайта, то есть быть доступен по адресу вида site.ru/robots.txt. Он не может располагаться на другом сайте, поддомене или в другой директории сайта.
  • Чтобы директивы из robots.txt были учтены роботом, при его обращении к файлу должен возвращаться код HTTP 200. Если же файл осуществляет перенаправление или отвечает любым другим кодом, отличным от 200, робот не сможет получить его содержимое.
  • Размер файла не должен превышать 32Кб, в противном случае робот посчитает такую инструкцию чрезмерно сложной или ошибочной и будет воспринимать её, как полностью разрешающую.
  • Если в robots.txt присутствуют правила для нескольких индексирующих роботов, робот Яндекса будет использовать только те, которые предназначены именно для него, то есть размещенные после строки "User-agent: Yandex".
  • Если робот встретит конфликтующие директивы, например:
User-agent: Yandex
          Allow: /
          Disallow: *
          то он выберет разрешающее правило, которое позволит страницам участвовать в поиске.

Если перечисленные условия будут выполняться, то вы можете быть уверены, что робот учтет заданные вами правила индексирования, а страницы и директории, запрещённые в robots.txt, не будут им посещаться и не смогут появиться в результатах поиска. Хочу также обратить внимание: после редактирования robots.txt информация в поиске обновляется не сразу, обычно это происходит в течение 1-2 недель.

И в завершение хочется поделиться двумя полезными ссылками: во-первых, "Анализатор robots.txt", с помощью него вы всегда можете самостоятельно проверить корректность настроек файла robots.txt. А во-вторых, вы всегда можете обратиться ко мне за помощью, воспользовавшись формой обратной связи. Я, в свою очередь, постараюсь максимально быстро и полно ответить на ваши вопросы.
4 комментария
Подписаться на комментарии к посту
Бакалов Игорь
27 февраля 2015, 23:35

Критично ли, чтобы в  в HTTP-заголовке для robots.txt было указано именно «Content-Type: text/plain»? 

Нет, это не критично, например, можно отдавать "Content-Type: text/html".

 

я поясню, почему это может происходить
постараюсь максимально быстро и полно ответить на ваши вопросы

Кхм... вопрос всё тот же:

Почему страницы, файлы или документы, закрытые от индексирующих роботов в файле robots.txt, могут попасть в результаты поиска и стать доступными для пользователей поисковой системы?

Сам роботс при этом корректен, разумеется.

Если Анализатор говорит, что страницы запрещены, но находятся в поиске более 2 недель, напишите через форму обратной связи, разберемся.