Обучение

Обновлено 29 июня, 2023

Как управлять индексированием сайта

Немного теории

Владелец сайта может влиять на то, как индексируется его ресурс.

Например, вы можете запросто закрыть для поисковой системы определённые разделы своего сайта. Для этого нужно добавить соответствующие команды в файл robots.txt — он находится в корневой папке сайта. Именно к этому файлу обращаются поисковые роботы, чтобы узнать, что можно индексировать, а что нет.

Поисковые системы исходят из того, что индексировать можно всё, что не запрещено. Поэтому владельцу сайта нужно самому позаботиться о том, чтобы в поиск не попала конфиденциальная информация — например, личные данные пользователей, их переписка или счета. Мы не рекомендуем запрещать страницы⁠-⁠дубли в robots.txt. Лучше склеить сигналы основной страницы и её дубликата с помощью директивы Clean⁠-⁠param, редиректа с HTTP-кодом 301 или атрибута rel=«canonical». Подробнее о том, как правильно это сделать, читайте в блоге Вебмастера и в Справке.

Многие системы управления сайтами (CMS) автоматически создают файл robots.txt и команды для роботов. Яндекс Вебмастер позволяет проверить файл robots.txt на наличие ошибок. Для этого нужно загрузить содержимое файла в инструмент «Анализ robots.txt». Можно просто скопировать данные файла и вставить их в форму или загрузить файл robots.txt через интерфейс сервиса.

Сервис проверит файл и покажет, есть ли в нём ошибки.

Теперь поговорим о том, как создать правило для робота. Каждое правило состоит из двух элементов: это обращение к роботу и команда.

Если вы хотите обратиться сразу ко всем роботам, используйте элемент «User⁠-⁠⁠agent:*». Для обращения только к роботу Яндекса нужно выбрать элемент «User⁠⁠-⁠agent: Yandex».

Вы можете дать роботу команду «Allow:» (разрешить индексирование) или «Disallow:» (запретить индексирование). После команды нужно указать адрес, для которого должна применяться команда.

Например, так будет выглядеть правило, запрещающее всем поисковым роботам индексировать раздел siteforyandex.ru/admin:

User⁠-⁠agent: *
Disallow: /admin

Анализатор помогает найти ошибки в файле robots.txt, проверить, все ли команды прописаны верно и понятны роботу, и узнать, разрешена ли к индексированию конкретная страница.

Файл robots.txt позволяет закрыть для индексирования весь контент страницы. Если вы хотите закрыть только какую-то часть контента, используйте тег noindex. Этот тег не даёт индексировать заключённый в него текст, но не мешает поисковой системе переходить по ссылкам внутри текста.

Для дублей с GET⁠-⁠параметрами мы особенно рекомендуем использовать директиву Clean⁠-⁠param, а не ставить запрет в robots.txt

Чтобы узнать, какие разделы сайта и в каком объёме уже проиндексированы, воспользуйтесь инструментом «Структура сайта» в Яндекс Вебмастере, он находится в разделе «Индексирование».

Задание

Попробуйте проанализировать файл robots.txt

Выполнить задание

Другие статьи

Как сервер влияет на индексирование

Как сообщить Поиску об изменениях на сайте

Подпишитесь, чтобы получать полезные материалы

Информационные услуги оказываются ООО «Яндекс» и не являются образовательными

Подпишитесь на новости

8 800 700-47-45

Звонок из регионов России бесплатный

© 2024 Яндекс