Клуб о поиске Яндекса

robots.txt или rel="canonical"

oldbadboy696
8 мая 2015, 21:04
Проблема с дублированием страниц может решаться прописыванием тега rel="canonical" или директив robots.txt, в которых запрещается индексация страниц с get-параметрами... Столкнулся с мнением, что rel="canonical" лучше, так как некоторые роботы Яндекса намерено игнорируют директивы robots.txt, а в результате будет страдать качество обхода сайта поисковой системой. Это действительно так?
2 комментария
firstlena.pershina
27 января 2016, 23:46

Не совсем так: индексирующий робот всегда соблюдает установленные в robots.txt правила, с этим каких-либо проблем не возникает. А вот атрибут rel="canonical" не является строгим указанием, в редких случаях он может игнорироваться роботом. Основное отличие между использованием canonical и robots.txt заключается в том, что атрибут не запрещает роботу обходить те или иные страницы сайта, если количество дублей высоко, это может негативно сказаться на обходе сайта в целом. Запрет же в robots.txt позволяет предотвратить посещение подобных страниц роботом, что может положительным образом сказаться на обходе нужных и полезных страниц.

Вместе с тем, работает это не много по-другому.
Возьмём интернет-магазин с пагинацией страниц:
На первой странице выводится 50 товаров, а таких страниц 100, т.е. 5 000 товаров.
В случае, если заблокирован доступ через роботс, то тогда он робот увидит только 50 товаров, а если есть атрибут rel="canonical", то тогда робот пройдётся по всей пагинации и закинет все товары в индекс.
В индекс же возьмёт только страницу категории.
========
https://www.zagoogli.ru/
Обновлено 3 ноября 2017, 17:34