Немного теории
Владелец сайта может влиять на то, как индексируется его ресурс.
Например, вы можете запросто закрыть для поисковой системы определённые разделы своего сайта. Для этого нужно добавить соответствующие команды в файл robots.txt — он находится в корневой папке сайта. Именно к этому файлу обращаются поисковые роботы, чтобы узнать, что можно индексировать, а что нет.
Поисковые системы исходят из того, что индексировать можно всё, что не запрещено. Поэтому владельцу сайта нужно самому позаботиться о том, чтобы в поиск не попала конфиденциальная информация — например, личные данные пользователей, их переписка или счета. Мы не рекомендуем запрещать страницы-дубли в robots.txt. Лучше склеить сигналы основной страницы и её дубликата с помощью директивы Clean-param, редиректа с HTTP-кодом 301 или атрибута rel=«canonical». Подробнее о том, как правильно это сделать, читайте в блоге Вебмастера и в Справке.
Многие системы управления сайтами (CMS) автоматически создают файл robots.txt и команды для роботов. Яндекс Вебмастер позволяет проверить файл robots.txt на наличие ошибок. Для этого нужно загрузить содержимое файла в инструмент «Анализ robots.txt». Можно просто скопировать данные файла и вставить их в форму или загрузить файл robots.txt через интерфейс сервиса.
Сервис проверит файл и покажет, есть ли в нём ошибки.
Теперь поговорим о том, как создать правило для робота. Каждое правило состоит из двух элементов: это обращение к роботу и команда.
Если вы хотите обратиться сразу ко всем роботам, используйте элемент «User-agent:*». Для обращения только к роботу Яндекса нужно выбрать элемент «User-agent: Yandex».
Вы можете дать роботу команду «Allow:» (разрешить индексирование) или «Disallow:» (запретить индексирование). После команды нужно указать адрес, для которого должна применяться команда.
Например, так будет выглядеть правило, запрещающее всем поисковым роботам индексировать раздел siteforyandex.ru/admin:
User-agent: *
Disallow: /admin
Анализатор помогает найти ошибки в файле robots.txt, проверить, все ли команды прописаны верно и понятны роботу, и узнать, разрешена ли к индексированию конкретная страница.
Файл robots.txt позволяет закрыть для индексирования весь контент страницы. Если вы хотите закрыть только какую-то часть контента, используйте тег noindex. Этот тег не даёт индексировать заключённый в него текст, но не мешает поисковой системе переходить по ссылкам внутри текста.
Для дублей с GET-параметрами мы особенно рекомендуем использовать директиву Clean-param, а не ставить запрет в robots.txt
Задание
Попробуйте проанализировать файл robots.txt