robots.txt, sitemap, дубликаты страниц, динамические страницы

6 ноября 2012, 19:47

Чтобы страницы могли появиться в поиске и находиться по соответствующим запросам, они, прежде всего, должны быть успешно проиндексированы роботом. Поэтому обходу сайта стоит уделить особое внимание и о том, что необходимо для этого обязательно сделать, я постараюсь рассказать в этом посте.

Начните с проверки HTTP-заголовков, передаваемых вашим сервером:

страницы, индексирование которых необходимо, возвращают HTTP ответ 200;

страницы, не существующие на сайте, возвращают HTTP ответ 404;

страницы, изменившие свой адрес, по старому url возвращают HTTP ответ 301;

Увидеть HTTP-ответ от сервера на запрос той или иной страницы сайта можно с помощью инструмента «Проверка ответа сервера» в Я.Вебмастере (для этого Ваш сайт должен быть уже добавлен и подтвержден в сервисе), либо Вы можете воспользоваться любым сервисом проверки HTTP-заголовков (например, Bertal.ru, позволяющих в качестве User-agent выбрать Yandex.

2. На следующем шаге стоит подумать, какие разделы и страницы сайта должны индексироваться, а какие нет. Создайте файл robots.txt и запретите в нем обход технических и служебных разделов сайта. Если на сайте есть страницы, присутствие которых опасно в выдаче или не несет ценности для посетителей, их также стоит запретить, например:

страницы с результатами поиска по сайту;

страницы, которые могут содержать персональные данные о клиентах Вашего сайта;

корзины с товарами.

Это позволит исключить индексирование «лишних» страниц сайта и их попадание в результаты поиска, а также поможет ускорить обход сайта в целом, так как робот будет больше внимания уделять индексированию наиболее ценных и полезных страниц.

3. Теперь нужно проверить, что будет, если кто-то поставит ошибочную ссылку на ваш сайт:

Откройте любую страницу и допишите в адресе несколько произвольных символов. Эта страница должна возвращать 301 перенаправление на доступную страницу сайта или отдавать 404 ошибку. Это поможет избежать попадания в поиск нежелательных страниц.

4. Дальше разбираемся с дублями и динамическими страницами:

Если один и тот же товар или статья может содержаться в различных каталогах сайта, то это приводит к появлению дублирующих страниц. В этом нет ничего страшного, просто нужно явно указать, какая страница из группы дублей должна индексироваться и участвовать в поиске. Сделать это можно при помощи атрибута rel="canonical" тега <link>.

Проверьте доступность страниц сайта по адресам без слеша на конце и со слешом. Если они доступны и возвращают одинаковый контент, настройте 301 перенаправление со страниц без слеша на страницы со слешом или наоборот. Это позволит избежать наличия дублей и укажет роботу, по какому адресу страницы должны индексироваться и участвовать в поиске, в том случае, если ему будут известны оба адреса.

Проверьте, есть ли на Вашем сайте страницы с динамическими параметрами (например, PHPSESSID= и т.п.), изменение которых не приводит к изменению контента страницы. Если структура сайта предполагает наличие подобных страниц, воспользуйтесь атрибутом rel="canonical", либо пропишите директиву Clean-param в файле robots.txt.

5. После того, как все настройки проверены, запрещено индексирование ненужных страниц, а также исключены дубли и динамические страницы, самое время позаботиться о том, чтобы робот быстрее узнал о страницах сайта. Для этого создайте файл sitemap, укажите в нем ссылки на все страницы, индексирование которых необходимо, и сообщите о существовании файла: пропишите директиву "Sitemap:" в robots.txt или воспользуйтесь специальной формой в сервисе Яндекс.Вебмастер. После обработки файла все страницы будут переданы в очередь на обход роботу. Особенно наличие файла sitemap актуально для сайтов, страницы которых часто обновляются, вообще не имеют ссылок, по которым они могут быть найдены, или имеют очень глубокую вложенность.
Если же нужно сообщить роботу о какой-то определенной странице, то для этого подойдет форма: http://webmaster.yandex.ru/addurl.xml

Полезная информация:
Инструмент "Проверки ответа сервера"
Атрибут rel="canonical "
Файл robots.txt
Форма проверки файла robots.txt
Директива Clean-param
Создание и добавление sitemap
Валидатор sitemap

17 комментариев

Авторизуйтесь, чтобы оставить комментарий

timichlm