Использование файла robots.txt

Robots.txt — это текстовый файл, который содержит параметры индексирования сайта для роботов поисковых систем.

Яндекс поддерживает стандарт исключений для роботов (Robots Exclusion Protocol) с расширенными возможностями.

При очередном обходе сайта робот Яндекса загружает файл robots.txt. Если при последнем обращении к файлу, страница или раздел сайта запрещены, робот не проиндексирует их.

Робот считает, что доступ к содержимому сайта открыт, если:
  • Размер файла превышает 32 КБ.

  • Файл robots.txt отсутствует или не является текстовым.

  • Файл недоступен — ответ на запрос робота отличается от HTTP-кода со статусом 200 OK. Проверьте ответ сервера

Обучающее видео. Robots.txt — создать, заполнить, запретить.

Посмотреть видео

Урок Как управлять индексированием сайта.

  1. Рекомендации по наполнению файла
  2. Использование кириллицы
  3. Как создать robots.txt
  4. Вопросы и ответы

Рекомендации по наполнению файла

Яндекс поддерживает следующие директивы:

ДирективаЧто делает
User-agent *Указывает на робота, для которого действуют перечисленные в robots.txt правила.
DisallowЗапрещает индексирование разделов или отдельных страниц сайта.
SitemapУказывает путь к файлу Sitemap, который размещен на сайте.
Clean-paramУказывает роботу, что URL страницы содержит параметры (например, UTM-метки), которые не нужно учитывать при индексировании.
AllowРазрешает индексирование разделов или отдельных страниц сайта.
Crawl-delayЗадает роботу минимальный период времени (в секундах) между окончанием загрузки одной страницы и началом загрузки следующей.

* Обязательная директива.

Наиболее часто вам могут понадобиться директивы Disallow, Sitemap и Clean-param. Например:

User-agent: * #указываем, для каких роботов установлены директивы
Disallow: /bin/ # запрещает ссылки из "Корзины с товарами".
Disallow: /search/ # запрещает ссылки страниц встроенного на сайте поиска
Disallow: /admin/ # запрещает ссылки из панели администратора
Sitemap: http://example.com/sitemap # указываем роботу на файл sitemap для сайта
Clean-param: ref /some_dir/get_book.pl

Роботы других поисковых систем и сервисов могут иначе интерпретировать эти директивы.

Примечание. Робот учитывает регистр в написании подстрок (имя или путь до файла, имя робота) и не учитывает регистр в названиях директив.

Использование кириллицы

Использование кириллицы запрещено в файле robots.txt и HTTP-заголовках сервера.

Для указания имен доменов используйте Punycode. Адреса страниц указывайте в кодировке, соответствующей кодировке текущей структуры сайта.

Пример файла robots.txt:

#Неверно:
User-agent: Yandex
Disallow: /корзина

#Верно:
User-agent: Yandex
Disallow: /%D0%BA%D0%BE%D1%80%D0%B7%D0%B8%D0%BD%D0%B0

Как создать robots.txt

  1. В текстовом редакторе создайте файл с именем robots.txt и заполните его.
  2. Проверьте файл в Яндекс.Вебмастере.
  3. Положите файл в корневую директорию вашего сайта.

Вопросы и ответы

В Яндекс.Вебмастере на странице «Диагностика сайта» возникает ошибка «Сервер отвечает редиректом на запрос /robots.txt»

Чтобы файл robots.txt учитывался роботом, он должен находиться в корневом каталоге сайта и отвечать кодом HTTP 200. Индексирующий робот не поддерживает использование файлов, расположенных на других сайтах.

Проверить ответ сервера и доступность файла robots.txt для робота можно с помощью инструмента Проверка ответа сервера.

Если ваш robots.txt выполняет перенаправление на другой файл robots.txt (например, при переезде сайта), добавьте сайт, который является целью перенаправления, в Яндекс.Вебмастер и подтвердите права на управление сайтом.