Платон Щукин

robots.txt, sitemap, дубликаты страниц, динамические страницы

6 ноября 2012, 19:47

Чтобы страницы могли появиться в поиске и находиться по соответствующим запросам, они, прежде всего, должны быть успешно проиндексированы роботом. Поэтому обходу сайта стоит уделить особое внимание и о том, что необходимо для этого обязательно сделать, я постараюсь рассказать в этом посте.
 

  1. Начните с проверки HTTP-заголовков, передаваемых вашим сервером:
  •    страницы, индексирование которых необходимо, возвращают HTTP ответ 200;
  •    страницы, не существующие на сайте, возвращают HTTP ответ 404;
  •    страницы, изменившие свой адрес, по старому url возвращают HTTP ответ 301;

  
Увидеть HTTP-ответ от сервера на запрос той или иной страницы сайта можно с помощью инструмента «Проверка ответа сервера» в Я.Вебмастере (для этого Ваш сайт должен быть уже добавлен и подтвержден в сервисе), либо Вы можете воспользоваться любым сервисом проверки HTTP-заголовков (например, Bertal.ru, позволяющих в качестве User-agent выбрать Yandex.

  2.  На следующем шаге стоит подумать, какие разделы и страницы сайта должны индексироваться, а какие нет. Создайте файл robots.txt и запретите в нем обход технических и служебных разделов сайта. Если на сайте есть страницы, присутствие которых опасно в выдаче или не несет ценности для посетителей, их также стоит запретить, например:

  • страницы с результатами поиска по сайту;
  • страницы, которые могут содержать персональные данные о клиентах Вашего сайта;
  • корзины с товарами.

Это позволит исключить индексирование «лишних» страниц сайта и их попадание в результаты поиска, а также поможет ускорить обход сайта в целом, так как робот будет больше внимания уделять индексированию наиболее ценных и полезных страниц.

  3.  Теперь нужно проверить, что будет, если кто-то поставит ошибочную ссылку на ваш сайт:

  • Откройте любую страницу и допишите в адресе несколько произвольных символов. Эта страница должна возвращать 301 перенаправление на доступную страницу сайта или отдавать 404 ошибку. Это поможет избежать попадания в поиск нежелательных страниц.


  4.   Дальше разбираемся с дублями и динамическими страницами:

  • Если один и тот же товар или статья может содержаться в различных каталогах сайта, то это приводит к появлению дублирующих страниц. В этом нет ничего страшного, просто нужно явно указать, какая страница из группы дублей должна индексироваться и участвовать в поиске. Сделать это можно при помощи атрибута rel="canonical" тега <link>.
  • Проверьте доступность страниц сайта по адресам без слеша на конце и со слешом. Если они доступны и возвращают одинаковый контент, настройте 301 перенаправление со страниц без слеша на страницы со слешом или наоборот. Это позволит избежать наличия дублей и укажет роботу, по какому адресу страницы должны индексироваться и участвовать в поиске, в том случае, если ему будут известны оба адреса.
  • Проверьте, есть ли на Вашем сайте страницы с динамическими параметрами (например, PHPSESSID= и т.п.), изменение которых не приводит к изменению контента страницы. Если структура сайта предполагает наличие подобных страниц, воспользуйтесь атрибутом rel="canonical", либо пропишите директиву Clean-param в файле robots.txt.



  5.   После того, как все настройки проверены, запрещено индексирование ненужных страниц, а также исключены дубли и динамические страницы, самое время позаботиться о том, чтобы робот быстрее узнал о страницах сайта. Для этого создайте файл sitemap, укажите в нем ссылки на все страницы, индексирование которых необходимо, и сообщите о существовании файла: пропишите директиву "Sitemap:" в robots.txt или воспользуйтесь специальной формой в сервисе Яндекс.Вебмастер. После обработки файла все страницы будут переданы в очередь на обход роботу. Особенно наличие файла sitemap актуально для сайтов, страницы которых часто обновляются, вообще не имеют ссылок, по которым они могут быть найдены, или имеют очень глубокую вложенность.
Если же нужно сообщить роботу о какой-то определенной странице, то для этого подойдет форма: http://webmaster.yandex.ru/addurl.xml


Полезная информация:
Инструмент "Проверки ответа сервера"
Атрибут rel="canonical"
Файл robots.txt
Форма проверки файла robots.txt
Директива Clean-param
Создание и добавление sitemap
Валидатор sitemap

17 комментариев
Подписаться на комментарии к посту

Спасибо большет Платон за подробное описание вопроса.

Скажите, страницы, на которые нет внутренних ссылок с сайта (или эти ссылки закрыты от индексации), будут нормально индексироваться и ранжироваться если добавить их только в сайтмап? Или будут ранжироваться хуже, чем если бы внутренние ссылки на эти страницы были?

Тимофей, могу прокомментировать по индексированию. Страницы из файла sitemap, не имеющие внутренних ссылок непосредственно на сайте или имеющие ссылки, закрытые от индексирования, будут обходиться роботом наравне со страницами, имеющими внутренние ссылки. В этом и заключается одно из преимуществ файла sitemap.

Спасибо за ответ, Платон.

Вадим Кибец
7 ноября 2012, 10:52

спасибо за инфу, друг. успехов яндексу в борьбе с буржуями.

У меня почти 500 сайтов с 500 счетчикакми!!
Вы-шутник,г Щукин,что также видно из других Ваших постов...Это чем-то напоминает предложение:"Пойди и выпей море!!",переданное Ксанфу в редакции ФЕГЕЙРЕДО от имени баснописца...
С.Кодацкий(
Вот меня мучает такой вопрос, допустим есть у меня страница с товаром, у страницы есть закладки, в каждой закладке есть некоторая информация, но именно текста там не много, для того чтобы не js пользователи могли ходить по закладкам, закладки организованы в виде отдельных ссылок, те получается один товар имеет 4 страницы, соответственно title почти одинаковы отличаются одним словом (информация,расписание,отзывы) - так вот вопрос такой: считается ли это дублями, понижаются такие страницы в выдаче, и работает ли склейка таких страниц мета тегами rel="next"? либо может стоит закрывать три страницы из четырех в robots.txt

Если эти страницы содержат совсем мало различий, то я бы рекомендовал Вам организовать страницу так, чтобы при любом сценарии вся необходимая информация о товаре содержалась на одной странице.

В том случае, если страницы всё-таки содержат различный контент, то наличие отдельных страниц - это нормальная ситуация.

Атрибут rel="next" не поддерживается нами.

Сергей Семененко
4 декабря 2012, 00:30

Добрый день Платон, Я столкнулся с такой проблемой. Моему сайту ( http://www.7sem.ru ) уже 3 месяца но до сих пор нету индексации сайта, а совсем недавно я получил тиц +10, но при этом индексация не произведена. Хотелось бы узнать причину по которой сайт не индексируется ! За ранее спасибо. 

Вижу Ваше письмо, правильно, что написали об этом в службу поддержки. Обязательно отвечу в рамках переписки.

Комментарий удалён

Карта сайта тут map с возможностью обновления

Спасибо, напомнили про дубли, давно хотел навести там порядок, теперь точно знаю с чего начать ...

(+1)

Внимание, вопрос! Почему у нас уже год не индексируются страницы кроме главной? В Google все страницы сайта индексируются. www.nokianew.ru

Комментарий удалён

Здравствуйте. Подскажите по атрибуту rel="canonical". У меня на сайте есть каталог статей(20 статей на странице) с кратким описанием о чем статья. Ниже каждого описания ссылка "Подробнее", которая ведет на статью. Стоит ли использовать атрибут  rel="canonical" для каждой ссылки "Подробнее"? Спасибо.

Еще раз здравствуйте, Уважаемый Платон!

Это все мы за Вами гоняемся по сети. Поскольку никто толком объснить не может и Вы тоже, что такое существенные изменения чтоб расклеилось, у нас к Вам просьба все-таки помочь расклеить psihmaster.ru

С уважением,

Маша 

Здравствуйте!

Платон, помогите разобраться, почему сайт не попадает в поиск?

 http://sportmarket.su/ 

Уже полгода он, в индекс залез, страниц много, а в поиске пара сотен, вместо тысяч.

И нет ни одной картинки в индексе. Что делать? Ждать нет смысла. Все рекомендации уже выполнили.

Платон, спасибо за статью. Подскажите, если я продаю один и тот же товар в нескольких городах и в описании товара меняется город, контакты и расположен товар для каждого города по своей ссылке. Это считается как дубли страниц или как товар в конкретном городе?