Платон Щукин

Несколько советов интернет-магазинам по настройкам индексирования

29 декабря 2015, 15:24

Многие вебмастера, работая над оптимизацией интернет-магазинов для индексирующих роботов, задаются одними и теми же вопросами. В этом посте я постараюсь осветить наиболее часто встречающиеся из них, которые поступают ко мне:


     1. Использовать ли ЧПУ-адреса на сайте?

Индексирующий робот посетит и включит в результаты поиска и страницу по адресу сайт.рф/?категория=1&подкатегория=6 , и по адресу сайт.рф/ромашки/крупные вне зависимости от формата их URL-адресов, но стоит задуматься, какой тип адресов лучше подойдёт для удобного ориентирования ваших покупателей, по какой ссылке пользователи форумов или социальных сетей будут чаще переходить и делиться ею со своими знакомыми. Понятная и читаемая структура URL-адресов не только позволит посетителям быстрее ориентироваться на сайте, но и поможет роботу сформировать корректные навигационные цепочки , что сделает сайт более заметным в результатах поиска.


     2. Что делать со страницами пагинации и сортировки товаров?

Если в какой-либо категории на вашем сайте находится большое количество товаров, могут появиться страницы пагинации (порядковой нумерации страниц), на которых собраны все товары данной категории. Если на такие страницы нет трафика из поисковых систем и их контент во многом идентичен, то советую настраивать атрибут rel="canonical" тега <link> на подобных страницах и делать страницы второй, третьей и дальнейшей нумерации неканоническими, а в качестве канонического (главного) адреса указывать первую страницу каталога, только она будет участвовать в результатах поиска.
Например, страница сайт.рф/ромашки/1 - каноническая, с неё начинается каталог, а страницы вида сайт.рф/ромашки/2 и сайт.рф/ромашки/3 - неканонические, в поиск их можно не включать. Это не только предотвратит возможное дублирование контента, но и позволит указать роботу, какая именно страница должна находиться в выдаче по запросам. При этом ссылки на товары, которые находятся на неканонических страницах, также будут известны индексирующему роботу.
Часто вместо пагинации сайты используют динамическую прокрутку, когда для посетителя, пролиставшего каталог до определённого момента, с помощью JavaScripts загружаются другие товары в данной категории. В такой ситуации необходимо проследить, чтобы весь контент таких страниц отдавался индексирующему роботу (например, с помощью инструмента в Яндекс.Вебмастере), либо чтобы роботу становилась доступна статическая пагинация товаров.


Вторая часть вопроса связана со страницами сортировки, например, по цене, популярности или характеристикам. Чтобы разобраться с этой частью, необходимо понять, нужны ли такие страницы в результатах поиска, отвечают ли они в полной мере на запросы пользователей. Если страницы не отвечают на запросы пользователей поисковой системы, их лучше закрыть с помощью соответствующих правил в Вашем robots.txt, оставив для посещения роботом только действительно необходимые страницы.


     3. Один товар в нескольких категориях, как исключить дублирование?

С такой ситуацией сталкиваются вебмастера, если один и тот же товар логично разместить в нескольких категориях. Например, ромашки могут находиться в категории "Полевые цветы" или "Необычные цветы". Для подобных ситуаций я советую использовать атрибут rel="canonical" тега <link>: укажите с помощью него канонический адрес, например тот, что находится в наиболее популярной категории, именно он будет индексироваться и участвовать в результатах поиска. Это позволит предотвратить дублирование контента в выдаче, и вы всегда будете знать, какая страница должна находиться по запросам. Посетители же всегда смогут найти обе страницы при заходе на сайт, а перелинковка между собой этих страниц может быть полезна в этом случае.


     4. Товар с выбором цвета\размеров, как предотвратить дублирование?

Когда один и тот же товар представлен в вашем магазине в различном исполнении, самое правильное решение для подобных случаев - сделать выбор характеристик товара без изменения URL-адреса с динамическим обновлением контента на странице (например, при смене выбранного цвета изменяется изображение). Но часто по каким-либо причинам (например, из-за технических ограничений используемой CMS) это невозможно сделать. Тогда для робота остаются несколько практически идентичных страниц с товаром, которые или могут находиться в поиске независимо друг от друга, или которые робот посчитает дублирующими, оставив в выдаче только один адрес на своё усмотрение.
Я советую вам решить, нужны ли все страницы с вариантами исполнения товара в поиске, или будет достаточно только одной версии страницы. Для первого случая на такие страницы можно добавить больше различающегося контента (отзывы покупателей, комментарии или обсуждения, рекомендуемые к просмотру товары),а во втором случае - использовать вышеуказанный атрибут rel="canonical", выбрав в качестве канонического адреса наиболее популярную модификацию товара.


     5. Товар закончился на складе, что делать?

Если товар стал кратковременно недоступен в вашем интернет-магазине, но в скором времени ожидается его поступление, я рекомендую оставить страницу с ним доступной для робота (возвращать индексирующему роботу HTTP-код ответа 200), это предотвратит её исключение из результатов поиска. Чтобы поддерживать интерес пользователя на такой странице можно отображать информацию о скором поступлении товара на склад, возможность предзаказа, а также рекомендуемые и похожие товары, которые есть в наличии, что часто позволяет сохранить посетителя сайта и заинтересовать его другой продукцией. При длительном отсутствии товара на складе лучше настроить HTTP-код ответа 404, чтобы удалить недоступные для заказа товары. Саму страницу «заглушки» не оставлять стандартной, а разнообразить дополнительной интересной и полезной информацией.


     6. Что нужно добавить в robots.txt ?

Обязательно к закрытию в файле robots.txt:

- страницы действий (добавление в корзину, сравнение товаров, перенос в список "Избранное"),
- корзины с товарами,
- встроенный поиск на сайте,
- служебные каталоги с конфиденциальными документами (адреса доставки, контактные телефоны),
- идентификаторы сессии, utm-метки с помощью директивы "Clean-param".


Дополнительно, как и для всех сайтов, указать в robots.txt необходимо:

- директиву Host с адресом главного зеркала сайта,
- директиву Sitemap с адресом актуального файла sitemap .

 

 

51 комментарий
Подписаться на комментарии к посту

Спасибо! Платон, совсем недавно мне отвечал суппорт Яндекса на вопрос, почему индексируется мобильная версия сайта, на которой установлен canonical на каждой странице на соотв. версию обычной версии сайта, что canonical не строгая директива. Да и у вас написано так в хелпе

В итоге где правда? Неканоническая страница точно не будет участвовать в поиске? 

Робот считает ссылку с атрибутом rel="canonical" не строгой директивой, а предлагаемым вариантом, который учитывается, но может быть проигнорирован.

Да, иногда атрибут rel="canonical" может не учитываться роботом, например, если в качестве канонического адреса указан другой домен\поддомен, а также если каноническая страница недоступна для робота. В большинстве остальных случаев робот следует указаниям.

Головинов Иван
30 декабря 2015, 14:11

У вас поддомен для мобильной версии, наверное?! Обязательно закройте метатегом noindex nofollow. Я вообще преподчитаю адаптивную верстку и не вижу агрументов для создания отдельной версии на поддомене. Кроме того, в вашем случае, поддомен это дубликат основного сайта.

Закрывать мобильную версию на поддомене совсем не нужно, если она должна участвовать в поиске. Достаточно на страницах основной версии указать наличие мобильной версии с помощью конструкции вида http://m.site.com/page.html"/> . Актуальные рекомендации по мобильным версиям уже есть на странице Помощи.

Головинов Иван
30 декабря 2015, 15:50

Вы правы, я поторопился! А что с обратными ссылками будет - люди очень часто делятся линками на мобильную версию. Яндекс склеит если будет такой тег?

Ссылки на мобильную версию, размещённую на отдельном поддомене, не будут учитываться для основного домена. При этом показатель тИЦ основного домена будет включать тИЦ всех доступных поддоменов.

Головинов Иван
5 января 2016, 19:04

Ну вот, лучше адаптивную сделать!

Лучше оно-то, лучше, но не всегда есть возможность технически, а иногда уже готова отдельная мобильная версия у клиента и тут ничего не попишешь. А закрывать от индексации нельзя, иначе Гугл не будет её "видеть"

Платон спасибо, с alternate понятно, но не будет проблемы с тем, что контент мобильной версии будет дублировать контент основной версии? В рекомендациях Гугл, например, как раз используется каноникал на мобильной версии, чтобы она не попадала в индекс, но робот её видел. Как быть с Яндексом? Закрывать от индексации нельзя, каноникал не работает... Достаточно альтернейт и чтобы в индексе были обе версии? Проблемы с дублированным контентом не будет? Мобильная версия не сможет (теоретически) показывать в поиске пользователям с десктопов?

Нет, проблем с дублированием контента не возникнет, при корректных настройках alternate мобильная версия не будет участвовать в основном поиске.

А как робот будет обрабатывать инструкции rel="prev" rel="next" тега ?

Робот эти указания не поддерживает и проигнорирует при индексировании страницы.
Головинов Иван
30 декабря 2015, 14:16

"Вторая часть вопроса связана со страницами сортировки, например, по цене, популярности или характеристикам. Чтобы разобраться с этой частью, необходимо понять, нужны ли такие страницы в результатах поиска, отвечают ли они в полной мере на запросы пользователей. Если страницы не отвечают на запросы пользователей поисковой системы, их лучше закрыть с помощью соответствующих правил в Вашем robots.txt, оставив для посещения роботом только действительно необходимые страницы."

И даже если вы решите что страницы сортировки вам нужны, то сайт получит очень сильные пинальтии потому-то и потому-то... Что за бред вы пишите?! Это же люди читаю и верят вам! :-(

Сергей Зорин
30 декабря 2015, 16:21

Правильно ли я понимаю, что наличие или отсутствие ЧПУ не влияет на ранжирование сайта?

Не влияет на индексирование, но влияет на ранжирование

Задать вопрос об этом Вам лучше через форму обратной связи.

"Обязательно к закрытию в файле robots.txt:
- служебные каталоги с конфиденциальными документами (адреса доставки, контактные телефоны)"

- Правильно ли я понимаю, что страница "Контакты", "Адеса доставки", "Офисы компании", а также "Реквизиты организации" (если они есть) по вашей логике считаются конфиденциальной информацией, хотя по сути таковыми не являясь (если нет об этом специальных документов у компании) и обязательно должны быть закрыты в robots.txt от индексации?

Почему это нужно закрывать, если это является навигационной информацией, которая даёт людям и поисковикам информацию о месте нахождения компании, её контактных телефонах и дополнительной информации для юридических лиц?

Мало того, микроразметкой, которую вы тоже рекомендуете применять, как раз отмечаются такие данные: schema.org/Organization и schema.org/LocalBusiness, и если их закрыть от индексации это ухудшит представление организации в поиске (и мы говорим не только про поиск Яндекс)

Речь в данном случае идёт о пользовательских данных, например, которые посетители сайта размещают при регистрации или оформлении заказа в интернет-магазине. Чтобы такая информация не попала в результаты поиска, её лучше запретить к обходу роботом. Закрывать приведённые же Вами разделы на сайте не нужно.

"Если в какой-либо категории на вашем сайте находится большое количество товаров, могут появиться страницы пагинации (порядковой нумерации страниц), на которых собраны все товары данной категории. Если на такие страницы нет трафика из поисковых систем и их контент во многом идентичен, то советую настраивать атрибут rel="canonical" тега на подобных страницах и делать страницы второй, третьей и дальнейшей нумерации неканоническими, а в качестве канонического (главного) адреса указывать первую страницу каталога, только она будет участвовать в результатах поиска."


Почему, в таком случае, не использовать метатег robots с атрибутом content="noindex, follow"? Почему вы сделали выбор именно в сторону canonical?


Сложно назвать контент страниц пагинации, например, в интернет-магазине во многом идентичным, потому что каждая страница пагинации содержит уникальный набор товаров в рамках цепочки пагинации. Именно это содержимое является основным контентом для страницы пагинации.

Мета-тег "noindex" запрещает индексирование страниц, в то время как атрибут rel="canonical" указывает на каноническую страницу и позволяет передавать ей некоторые показатели неканонических адресов. Для пользователей сайта, несомненно, страницы пагинации нужны, но посетителям сайта из поисковой выдачи удобнее попадать сразу в начало каталога - как раз на первую страницу, поэтому я советую оставлять для робота только её.

С точки зрения попадания пользователей на страницу и noindex, и canonical будут работать одинаково, ведь в выдаче останется одна первая страница из цепочки пагинации.

 

Получается, основная суть как раз в передаче "некоторых показателей неканонических адресов". Не вызовет ли возможность передачи этих показателей проблем с индексацией и повторной индексацией карточек товаров?

Головинов Иван
5 января 2016, 19:17

Лучше указать каноническую страницу для дубликатов, для глубины и скорости переиндексации пс сайта. В крайнем случае метатегами ноуиндекс ноуфоловую.

По поводу уникальности страниц пагинации каталога за счет смены названия товаров, вы ошибаетесь, дубликаты бывают разные и в данном случае ни как не упирается только в названия товаров. Платоны, как раз наоборот указали, что названия товаров будут дублироватся в разных разделах. Ну и наверное будут дублироватся и с карточкой товара 

Спасибо за ваше мнение, но я понимаю, что может быть/не быть дублями и в какой степени. Именно потому и хочу получить ответ из официального источника.

 

 

Нет, проблем не будет, страницы с товарами будут индексироваться в общем порядке.

Что подразумевается под 

некоторые показатели неканонических адресов

Увы, прокомментировать, какие именно факторы передаются каноническим адресам, я не могу.

platon,
"Для пользователей сайта, несомненно, страницы пагинации нужны, но посетителям сайта из поисковой выдачи удобнее попадать сразу в начало каталога - как раз на первую страницу, поэтому я советую оставлять для робота только её." я правильно понимаю, что яндексбот не разбирается в нафигации сайта, не может найти где начало и ему нужен каноникал для этого? :)
Явтушенко Александр
12 января 2016, 01:15

 

И еще вопросы по этой рекомендации.
«Если в какой-либо категории на вашем сайте находится большое количество товаров, могут появиться страницы пагинации (порядковой нумерации страниц), на которых собраны все товары данной категории. Если на такие страницы нет трафика из поисковых систем и их контент во многом идентичен, то советую настраивать атрибут rel="canonical" тега на подобных страницах и делать страницы второй, третьей и дальнейшей нумерации неканоническими, а в качестве канонического (главного) адреса указывать первую страницу каталога,»

Представители Google говорили, что такое использование канонических адресов, является ошибочным. Информация здесь.
https://googlewebmastercentral.blogspot.ru/2013/04/5-common-mistakes-with-relcanonical.html

Я понимаю, что Яндекс не Google.  Но в итоге разработчики попадают в двоякую ситуацию…


1.Буду благодарен, если прокомментируете эту ситуацию.

2.Второй вопрос. Нет ли в планах учитывать атрибуты rel="next" и rel="prev" ?

1. По указанной Вами ссылке речь идёт не о страницах пагинации с товаром в интернет магазине, о текстовой статье, содержимое которой разбито на несколько частей. В такой ситуации применять атрибут rel="canonical" не нужно. 2. В ближайшей перспективе таких планов нет.
Явтушенко Александр
14 января 2016, 11:08

Спасибо за комментарий.

13.01.16 (вчера) была видеовстреча с веб-мастерами Google. Там задал этот же вопрос.

Сказали, что не рекомендуют и в случае интернет-магазинов
https://www.youtube.com/watch?v=pyt9PgSt4jo (смотреть с 15.30)

Вы правы, момент с наличием страницы, на которой собран весь товар раздела, я упустил. Если такая страница присутствует на сайту, действительно, лучше указывать в качестве канонической именно её.

platon,
вообще говоря это как-то странно - что это за такая отдельная страница со всем товаром раздела (ее конечно можно специально создать) - нам же все-таки нужно, чтобы пользователь пришел на первую страницу раздела, а не на страницу, где полностью весь товар (его может очень много - да и не очень-то это целесообразно по-моему целиком весь его на одну страницу грузить).
mail@alphaseo.ru
24 июня 2016, 00:43
trubadurchick,
у сайтов на 1С Битрикс есть такая страница по-умолчанию, вызывается параметром /?SHOWALL_1=1. У нас было несколько проектов, которые приходили с проставленным rel="canonical" именно на эти страницы.

Добрый день и спасибо за рекомендации. 

Не могли бы вы ответить на вопрос? 

и 

Это одно и тоже?

Если речь об индексирующем роботе, то вид кавычек значения не имеет.
Добрый день. Вы не могли бы все таки до конца осветить вопрос по поводу страниц пагинации/canonical?
Явтушенко Александр здесь уже спрашивал по поводу данных страниц. В том видео что он скинул Google не рекомендует использовать тег canonical на страницах пагинации. Я имею в виду:
site.ru/sumki - первая страница раздела
site.ru/sumki/2 - вторая страница раздела
site.ru/sumki/3 - третья страница раздела
Вы же говорите, что canonical со второй/третьей и т.д. указывать на первую нужно.
Предположим, что страницы где собраны ВСЕ товары раздела - НЕТ.
Как быть вебмастерам?
Спасибо
Будет ответ на мой вопрос? Уже две недели прошло
watsonia,
Прошу прощения, что так долго не отвечал. Если страницы со всеми товарами нет, на страницах пагинации атрибут rel="canonical" можно не устанавливать.
platon,
Как тогда быть, какой код вставить?

В интернете советуют поставить на все страницы пагинации (кроме первой) тег
<meta name=»robots» content=»noindex,follow»>

Будет ли это правильным решением?

Хотелось бы чтобы все-таки яндекс поддерживал атрибуты атрибуты rel="next" и rel="prev"
Вопрос по геотаргетированию: будет интернет-магазин, он же сайт компании, компания имеет множество филиалов по России, домен отнесен к региону "Россия", нужно ли делать статические страницы (главная, контакты, доставка) для каждого региона и загонять их в индекс отдельно например урл http://mysite.ru/spb/ или можно сделать для всех один урл с динамическим региональным контентом отображаемым по привязке к местному ip?
Pavel A. Pushkarev
23 июня 2016, 18:11
Подпишусь на комментарии :)
Спасибо Платон, за интересную стратью. Но у меня появился вопрос. Касательно отображения одного товара в разных категориях. А что если в разных категориях у одного товара одинаковые адреса. К вашему примеру "Например, ромашки могут находиться в категории "Полевые цветы" или "Необычные цветы"." и имеют адрес формата сайт-цветов.рф/Полевые-цветы и  сайт-цветов.рф/Необычные-цветы. С обоих групп имеется ссылка, на карточку товара, имеющую такой адрес: сайт-цветов.рф/ромашка-полевая. Что делать в такой ситуации?
Прочитал всю ветку и по п.2. все в итоге свелось к "можете делать, можете не делать".. хотелось бы все же рекомендацию получить "как лучше". Вот, например, страница раздела с товарами, на которой 300 товаров (с пагинацией, само собой) и с ссылкой "Показать все".

1. Ставим rel="canonical" на "Показать все" - загрузка страницы с 300 товарами займет значительно время и не уложится в хорошие показатели для поисковой системы, а следовательно этот фактор окажется проигрывающим сайтам конкурентов, которые не заморачивались с этой темой?

2. Ставим rel="canonical" на первую страницу пагинации - не будет ли это логической ошибкой при наличии "Показать все"? Надо ли в таком случае "Показать все" закрыть от индексации?

По п.6. вопрос:

С robots.txt все понятно, а в коде сайта ссылки фильтров типа "Показать", "Сбросить", ссылки у товаров "Добавить к сравнению", "В корзину" и т.п. их снабжать атрибутами rel="nofollow" и помещать в тег noindex?
orlov-evgeny,


по пункту 2:
Есть страницы пагинации и есть страница "показать все". Со всех страниц кроме первой стоит canonical на первую страницу пагинации (!). Но... яндекс по некоторым запросам отдает именно страницу "показать все" как наиболее релевантную (она не закрыта от индексации и более того, с нее тоже настроен canonical на первую страницу пагинации).
И тут возвращаемся к пункту 1. Действительно, с кол-вом товаров 300+ она грузится не очень быстро.


Так что присоединяюсь к вопросу, как сделать логически более верно?
Платон, подскажите, а если при удалении товаров/объявлений делать не 404, а 301-редирект на заглавную страницу категории -  допустим ли такой вариант?


Это поидее, это будет более полезно пользователю чем страница заглушка с ошибкой - будет листинг релевантных товаров/объявлений по его теме.
elrond-elf,
допустим, но это не будет более полезным. Ваша страница с ошибкой пропадет из поиска достаточно быстро. При этом, если человек ищет конкретный товар - очень сложно оставить его на сайте, чтобы он выбрал аналог.
На сайте имеются группы статей.
/некоторая-группа/ - ведет на первую страницу статей из группы

/некоторая-группа/?page=1 - тоже ведет на первую страницу статей из группы

/некоторая-группа/?page=2 - ведет на вторую страницу статей из группы

... и т.д.


Правильно я понял, что если есть GET параметр ?page=1, то в заголовке, для таких страниц, надо написать:
<link rel="canonical" href="/некоторая-группа"/>  

?
e.s.burdin,
и еще спрошу: в этом тэге ссылка может быть относительной (как я нарисовал) или только абсолютные ссылки (полный урл) использовать?
Отвечать здесь больше не будут?
Тоже интересно!
Продублирую вопрос, который остался без ответа и интересен:


Спасибо Платон, за интересную стратью. Но у меня появился вопрос. Касательно отображения одного товара в разных категориях. А что если в разных категориях у одного товара одинаковые адреса. К вашему примеру "Например, ромашки могут находиться в категории "Полевые цветы" или "Необычные цветы"." и имеют адрес формата сайт-цветов.рф/Полевые-цветы и сайт-цветов.рф/Необычные-цветы. С обоих групп имеется ссылка, на карточку товара, имеющую такой адрес: сайт-цветов.рф/ромашка-полевая. Что делать в такой ситуации?
Огромное спасибо, крайне широко и доступно раскрыт вопрос про дубли страниц.