Клуб о поиске Яндекса

Пагинация под Яндекс и Гугл | Как все-таки это должно быть?

testov.altera
26 августа, 14:28

Ув. коллеги, рад приветствовать!
Приглашаю к обсуждению вопроса пагинации под Яндекс и Google. Знаю, что тема актуальна для многих вебмастеров.

⊕ Дано:
→ Большой сайт - более 7'000 предложений, некоторые разделы по 50 страниц пагинации
→ Страницы пагинации вынесли в отдельный параметр: site.ru/catalog/name/?page=XX, а раньше они имели все GET-параметры
→ Страницы пагинации сортировок имеют все возможные GET-параметры: site.ru/catalog/name/?PAGEN*SIZEN*ETC
Настроено было все неправильно: вся пагинация имела GET-параметры, пагинация сортировки (noindex, follow) закрыта в robots.txt, пигинация разделов также noindex, follow, но открыта в robots.txt

✪ Требуется:
→ Настроить краулинг контента на страницах пагинации и саму пагинацию для Google и Яндекс. 

⊛ Сложности:
→ Яндекс рекомендует canonical на первую страницу (ну, основную, которая в индексе), Google на - view all
→ Яндекс не понимает prev, next, Google - отлично знает и рекомендует

✔ Наше текущее решение (возможно неправильное):
→ пагинацию сортировок оставляем на get-параметрах, закрытой в robots.txt с метой noindex, follow
→ пагинацию нормальную с одним параметром: 
- открываем через него в robots.txt, мета index, follow
- prev , next под Гугл
- Также оповестим Гугл о действии параметра ?page=XX с помощью Search Console
- canonical на первую страницу под Яндекс
* При этом в хедере prev, next располагаются на одной строке с canonical, но идут первыми (типа под Гугл)

❓ Вопросы:
→ Правильным ли путем мы решили пойти и следует ли ожидать проблем с понимаем пагинации со стороны Яндекса?
→ Есть ли более элегантные решения этой головоломки под Яндекс, не прибегая к canonical на первую страницу? По сути, первая и пятая страница пагинация не должны быть каноническими, так как у них разный контент, подобранный под один и тот же пользовательский интент. Кхм.

----------------------
Очень жду ваших ценных мнений.
С уважением!

16 комментариев
firstlena.pershina
28 августа, 12:10
Canonical на view all для Яндекса и для Гугла, будет нормально.
Было бы круто, но...


Структура сайта: 


- Раздел 1 (в нем видны все предложения)
- Категория 1 Раздела 1(в ней видны предложения категории)
- Подкатегория 1 Категории 1 (в ней видны только предложения подкатегории)
- Подкатегория 2 Категории 1 (в ней видны только предложения подкатегории)
- Категория 2 

... и т.д.


Для наших пользователей такая структура идеальна, поскольку они предпочитают работать сразу со всем каталогом. Когда они ищут что-то конкретное, они просто используют возможности наших продвинутых фильтров. Но кроме того, некоторые пользователи приходят на сайт в поисках конкретной категории или подкатегории - мы предоставляем им возможность искать только среди релевантных предложений.


Таким образом, view all на всем разделе будем вмещать в себя более 2'000 предложений! Пугает даже не скорость загрузки такой страницы (направлять на нее пользователей - самоубийство), а просто кол-во строк с ссылками на предложения, даже если спрячем их скриптом и будем показывать по +30 предложений после нажатия кнопки.

Могут ли быть еще какие-то хорошие варианты сделать все правильно?
firstlena.pershina
28 августа, 14:49
testov.altera,
А можем беседу в поддержку Вебмастера перенести, чтобы на конкретном примере смотреть, а не общие рекомендации давать? Можете в Вебмастер продублировать вопрос?  
firstlena.pershina,




Елена, сделал бы это с большим удовольствием. К своему стыду, не могу найти кнопку с формой отправки письма в обратной связи WM. Только через цепочку обращений, но тогда мое письмо пойдет не по адресу и упадет платонам. 


Покажу сайт здесь. Мы много работаем над ним, поэтому нестыдно. Речь об http://alterainvest.ru/ . Сайт с ядром Битрикса, поэтому старая пагинация была с GET-параметрами. Сегодня мы внедрили ЧПУ-пагинации для каталожных разделов, но при этом оставили сортировки (и пагинацию сортировок с GET-параметрами), метой noindex и закрытыми для роботов через robots.txt . Такие страницы используются редко, они не будут приводить к получению трафика, мы не видим смысл нагружать роботов Яндекса или Гугла их обработкой.



Структура, о которой я говорил на примере Москвы (с пояснениями - читайте только выделенное болдом, чтобы сэкономить время)



- http://alterainvest.ru/msk/products/ - каталог готового бизнеса Москвы (Москва -> Купить бизнес). Пример новой пагинации: http://alterainvest.ru/msk/products/?page=2 (next - ?page=3 ; prev - /msk/products/ , canonical - /msk/products/ .



Поскольку мы убедились, что пользователи под интентом "купить бизнес в Москве", "Продажа готового бизнеса в Москве" и т.п. нуждаются в предложениях готового бизнеса, мы отдаем на этой странице вообще весь имеющийся бизнес региона. View all состоял бы из 1250+ ссылок (x 3, тк переход с заголовка, кнопки, картинки). Причем, что важно, при оптимизации мы соотносим интент и предложения, чтобы оставаться релевантными! Например, мы получаем лиды по запросам типа "от собственника" (это подтверждается исследованием поведения наших пользователей и в директе, и в органике) . Это логически правильно, поскольку наши покупателя бизнеса вообще не платят нам никакой комиссии, т.е. мы соответствуем их намерению.

Далее. Если им нужно настроить фильтр, мы даем им это. Если их интересует конкретная область бизнеса - мы также даем им этом.

Допустим, нашего пользователя интересует гостиничный бизнес.



- http://alterainvest.ru/msk/products/10/ (Москва -> Купить бизнес -> Гостиничный) - каталог конкретной категории бизнеса. View All состоял бы из 130 ссылок (x3). Пример новый пагинации: http://alterainvest.ru/msk/products/10/?page=2 .

Это раздел не покрывает SEO-задач, но очень важен для юзабилити пользователей, им удобно дробить предложения на области и сферы.



- http://alterainvest.ru/msk/products/221/ (Москва -> Купить бизнес -> Автобизнес -> Автомойки) - каталог уже узкосегментальных предложений. Пример новый пагинации: http://alterainvest.ru/msk/products/221/?page=2 . Заточен под SEO-задача (пользователя часто ищут узкий сегмент готового бизнеса, мы даем 100% релевантные предложения) и юзабилити (опять же, пользователям удобно уточнять и сужать предмет поиска по интересующей сфере). Вот здесь View All вышел бы компактным - 36 ссылок (x3).



-------------------------------------------------------


Задачи, которые стоят перед нами при внедрении пагинации:


- Продолжать ранжироваться только по /region/razdel/ или /region/razdel/category/ , не путая ПС и не имея в индексе страниц /?page=XXX/
- Наладить индексацию контента внутри страниц пагинации. Мы собрали достаточно трудный и умный sitemap, откуда можно брать все необходимое, с индексацией реально необходимого контента имеем проблемы.
- Сделать поведение наших пользователей на страницах пагинации считываемым для ПС и передать основным страницам все ПФ пагинаций, чтобы улучшить ранжирование.
firstlena.pershina
29 августа, 12:22
testov.altera,
Форма обратной связи в Вебмастере внизу страницы сервиса. Далее небольшой квест, чтобы выбрать тему вашего вопроса.
firstlena.pershina,
Елена, квест действительно не для слабаков. Риская нарваться на гнев Платонов, попросил передать Вам мое обращение.


В качестве отправной точки формы использовал вот эту - https://yandex.ru/support/webmaster-troubleshooting/site-indexing/bad-indexing/new-pages.html , как наиболее близкую по смыслу. Но она все равно тематически не соответствует моему вопросу, простите.
Добрый день!


Елена, ситуация на самом деле типовая. Можно ли увидеть решение здесь?
firstlena.pershina
28 августа, 18:08
shishovmt,
Типовое решение у нас вот тут очень подробно изложено: https://www.youtube.com/watch?v=EZQPJ0UMe3w&list=PLo3X_vMPl8Xi6hT28RxV2neu7ANErdLjP&index=5 
Решение есть, очень простое, не знаю насколько правильное. Определять ботов. Если бот яндекса, то это один рецепт (1-я страница каноникал, 2-я,3-я и т.д. каноникал на 1-ую), для Гугла и остальных другой рецепт (каждая страница каноникал + rel,prev)
По тому что я вижу в вебмастере у Гугла и Яндекса, вроде как правильное. По-другому мне кажется просто никак.
p.s. как определять ботов есть в помощи как Яндекса так и Гугла.
inet-creative,
Ув. коллега, благодарю за ответ. К своему стыду, впервые слышу о такой возможности (разделять хедер для Гугл и Яндекс-бота). 


Не могли бы вы указать ссылку на справку, где показано как это реализовано. Также буду благодарен примерам сайтов / страниц с реализацией.


Сам, к сожалению, не могу найти никакой спецификации по настройке prev / next и других вещей для разных ботов. Только <meta name="robots" ...> , которую можно настроить под гуглбота или яндекс.
testov.altera,
 вообще-то, пример мой бесполезен, в коде страниц сайта вы ничего не увидите. Зайдя на сайт, скрипт определит что вы обычный пользователь и выдаст вам то, что выдает для гугла .


Просто, написать  в хедере шаблона не получится, нужно реализовывать на стороне сервера. В моем случае это php. Я для своего сайта писал скрипты сам.  Для вашего случая, тут зависит на какой cmc-ке / фреймворке ваш сайт работает.  Сам скрипт не сложный, буквально несколько десятков строк, хорошему программисту работы на полдня. Единственное как-то вывод в поток реализовать на вашем сайте.
И соответственно name="robots" тут не пригодится никак.
И еще, желательно как-то реализовать (на всякий случай) логгирование посещений ботов (в базу или в файл).
Один совет: не желательно реализовывать детекцию ботов на основе ip, или простого разбора user-agenta. Самый правильный принцип реализации здесь: 
https://yandex.ru/support/webmaster/robot-workings/check-yandex-robots.html






inet-creative,
Ув. коллега, понял вас. Идея отличная. Я не был внимателен и отчего-то подумал, что можно настроить директивы / рекомендации хедера под конкретных ботов.

Есть опасения,  насколько лояльны сами ПС к такой реализации. Это не клоакинг, конечно, но показывать разные хедеры яндекс-боту или гуглу / пользователям. Кто-то уже сумел применить реализовать такой способ или это пока теория?
testov.altera,
 Коллега, все это реализовано на одном из моих сайтов. Запущено в августе. Нарушений не вижу. Вижу как страницы пагинации улетают из индекса у Яндекса. Как и положено. В гугле все стабильно как и было. Так что, можете написать в конце месяца, могу рассказать, что да как изменилось или нет.
Что касается клоакинга, то это действительно другой случай. Здесь скорее управление индексированием сайта. Ведь пс не будут же вас пессимизировать за то, что в robots.txt вы для яндекса написали одну директиву (сканировать / не сканировать разделы, страницы) а для гугла другую?  Поэтому не вижу проблем. 
Плюс в моем случае, меня несколько подзадолбал яндекс своей нестабильностью. Он может показать 1-ю страницу, а может 15-ю, а может 3-ю и т.д. 
inet-creative,
Добрый день. 
Подскажите, пожалуйста, как продвигается Ваш эксперимент?
moyakassa,
 здравствуйте. Да собственно, нормально. Прошло 2 месяца. Проблем не вижу.  Раньше Яндекс по запросу, там где были страницы с пагинацией, он мог выдать 3-ю, 7-ю или 19-ю страницу. Теперь только 1-ю. Как и положено. У Гугла как было так и осталось. Толька 1-я по запросу. Есть разница в индексе : у Яндекса меньше, у Гугла больше. По идее так и должно быть.  

Canonical на view all
А не будет ли фильтров за переспам? Особенно если сейчас 20 товаров, а будет 500.
Мы никак не могли вернуться в топ, пока не уменьшили количество карточек на странице. Не хотелось бы повторения.