Почему робот не следует установленным в robots.txt правилам

26 февраля 2015, 17:01

Иногда страницы, файлы или документы, закрытые от индексирующих роботов в файле robots.txt, могут попасть в результаты поиска и стать доступными для пользователей поисковой системы. Поскольку зачастую такие ситуации вызывают у владельцев сайтов не только удивление, но и негодование, я поясню, почему это может происходить.

Стоит особо отметить, что индексирующий робот Яндекса при обходе любого сайта строго соблюдает те правила, которые заданы в robots.txt. Этот файл служит для него своеобразной инструкцией, которую нельзя нарушать. Чтобы все установленные директивы использовались роботом при посещении сайта, необходимо соблюдать ряд условий:

Файл robots.txt должен располагаться в корневом каталоге сайта, то есть быть доступен по адресу вида site.ru/robots.txt. Он не может располагаться на другом сайте, поддомене или в другой директории сайта.

Чтобы директивы из robots.txt были учтены роботом, при его обращении к файлу должен возвращаться код HTTP 200. Если же файл осуществляет перенаправление или отвечает любым другим кодом, отличным от 200, робот не сможет получить его содержимое.

Размер файла не должен превышать 32Кб, в противном случае робот посчитает такую инструкцию чрезмерно сложной или ошибочной и будет воспринимать её, как полностью разрешающую.

Если в robots.txt присутствуют правила для нескольких индексирующих роботов, робот Яндекса будет использовать только те, которые предназначены именно для него, то есть размещенные после строки "User-agent: Yandex".

Если робот встретит конфликтующие директивы, например:

User-agent: Yandex
Allow: /
Disallow: *

то он выберет разрешающее правило, которое позволит страницам участвовать в поиске.

Если перечисленные условия будут выполняться, то вы можете быть уверены, что робот учтет заданные вами правила индексирования, а страницы и директории, запрещённые в robots.txt, не будут им посещаться и не смогут появиться в результатах поиска. Хочу также обратить внимание: после редактирования robots.txt информация в поиске обновляется не сразу, обычно это происходит в течение 1-2 недель.

И в завершение хочется поделиться двумя полезными ссылками: во-первых, "Анализатор robots.txt", с помощью него вы всегда можете самостоятельно проверить корректность настроек файла robots.txt. А во-вторых, вы всегда можете обратиться ко мне за помощью, воспользовавшись формой обратной связи. Я, в свою очередь, постараюсь максимально быстро и полно ответить на ваши вопросы.

5 комментариев

Авторизуйтесь, чтобы оставить комментарий

Игорь

28 января 2016, 11:47

Критично ли, чтобы в в HTTP-заголовке для robots.txt было указано именно «Content-Type: text/plain»?

platon

28 января 2016, 11:47

Нет, это не критично, например, можно отдавать "Content-Type: text/html".

Денис

28 января 2016, 11:47

я поясню, почему это может происходить

постараюсь максимально быстро и полно ответить на ваши вопросы

Кхм... вопрос всё тот же:

Почему страницы, файлы или документы, закрытые от индексирующих роботов в файле robots.txt, могут попасть в результаты поиска и стать доступными для пользователей поисковой системы?

Сам роботс при этом корректен, разумеется.

platon

28 января 2016, 11:47

Если Анализатор говорит, что страницы запрещены, но находятся в поиске более 2 недель, напишите через форму обратной связи, разберемся.

paruskz74

6 декабря 2018, 00:21

Здравствуйте!
Подскажите пожалуйста можно ли в файле robots.txt использовать сразу два файла Sitemap один в формате php второй xml вот так

Sitemap: https://sait.ru/sitemap.php
Sitemap: https://sait.ru/sitemap.xml

можно или лучше оставить один этот Sitemap: https://sait.ru/sitemap.xml а?

спасибо.