Платон Щукин

Дубли: как их избежать. Вопросы и ответы.

5 декабря, 14:08

В советах интернет-магазинам я уже затрагивал страницы товаров с похожим или идентичным контентом. Сегодня расскажу о том, как избежать признания страниц дублирующими, и отвечу на популярные вопросы по этой теме.

Что называем дублями?

Страницы, текстовое содержимое которых полностью или практически совпадает.

Популярные примеры это страницы с GET-параметрами и метками (UTM и др.) в url, а также страницы в разных разделах сайта с отличающимся только url. Наличие таковых не приносит пользы и может негативно сказаться на разных этапах взаимодействия с поисковой системой:

  • До момента определения страниц дублями они могут конкурировать между собой в результатах поиска по запросам и пользователь после перехода на сайт может оказаться не на целевой для него странице.
  • Когда индексирующий робот определит дубли, в поиске останется только одна страница-дубль, которая будет выбрана автоматически. А так как робот может пересматривать свой выбор, то страница в поиске может меняться.
  • На обход дублей роботу требуется время, из-за чего обход нужных страниц сайта может занимать больше времени.

Чтобы избавиться от дублей и последствий их появления, мы рекомендуем настраивать у них атрибут rel="canonical", указывая основной адрес, либо использовать редирект 301 на нужные страницы - это укажет роботу на то, какая из страниц должна быть в поиске.

Случается, что робот признаёт дублями разные, казалось бы по внешнему виду, страницы. А присутствие в поиске каждой могло быть полезно сайту и пользователю, который осуществляет поиск. Единственно правильное решение это сделать их значительно отличающимися:

  • добавить разное текстовое содержимое;
  • добавить UGC в виде возможности пользователям оставлять комментарии, рецензии и т.п.;
  • не лучший, но действующий метод - использование тега noindex: "шаблон" сайта содержит на страницах большое количество текста, который совпадает на всех страницах, что может частично повлиять на признание страниц дублями. В такой ситуации возможно использовать тег noindex, запретив к индексированию совпадающий текст: меню навигации, "подвал" сайта и т.п., то есть всё то, что робот видит в качестве идентичного текста.

Рубрика Вопрос/Ответ

В. У страниц почти одинаковый адрес, не посчитает ли их робот дублирующими?
О. Нет, сравнивается непосредственно содержимое самих страниц и адрес не играет роли.

В. У меня фото разное на страницах, а текст одинаковый, будут дубли?
О. Да, такие страницы будут признаны дублирующими. Чтобы страницы индексировались отдельно друг от друга, необходимы отличия в текстовом содержимом.

В. Совершенно разные по содержимому и тексту страницы признаются дублями одной страницы и исключаются из поиска, почему?
О. Такая ситуация, как правило, связана с тем, что страницы в какой-то момент отдавали сообщение об ошибке. Проверить это можно при помощи оператора [url:] в результатах поиска. Найдите с его помощью страницу-дубль, включенную в поиск: в описании страницы будет отображаться то сообщение, которое получал наш робот, когда посещал страницы. Проверьте сохраненную копию страницы: в ней тоже мог сохраниться контент, получаемый роботом. Используя инструмент "Проверка ответа сервера" посмотрите, какое содержимое страницы отдают сейчас. Если страницы отдают разное содержимое, то они смогут вернуться в поиск после их повторного индексирования. Ускорить этот процесс поможет инструмент переобхода в Яндекс.Вебмастере.
Чтобы избежать исключения страниц из поиска в случае кратковременной недоступности сайта, мы рекомендуем настраивать со страниц HTTP-код ответа 503.

В. Со страниц-дублей установлен редирект на нужные страницы, но в поиске все равно участвуют неправильные страницы.
О. Убедитесь, что на страницах установлен постоянный редирект 301. В случае временного редиректа 302 или использования мета-тега refresh в поиске может участвовать страница по наиболее короткому адресу. Если установлен постоянный редирект, возможно, что робот еще не успел повторно проиндексировать страницу: с помощью инструмента "Проверка статуса URL" Вы можете проверить, какая версия страницы участвует в поиске и ее статус. Ускорить переобход страниц с редиректом также поможет "Переобход страниц" - в течение одной-двух недель они выпадут из поиска.

В. Можно ли использовать директиву Disallow в robots.txt для запрета индексирования дублей?
О. Да, такой запрет можно использовать, однако при использовании директивы Disallow передать какие-либо показатели запрещенных страниц не получится, поэтому мы рекомендуем использовать атрибут тега <link> rel="canonical", либо редирект. Для страниц с GET-параметрами можно использовать директиву Clean-param.

В. На страницы товаров больше нечего добавить: они, к примеру, отличаются только фото, но цена и описание одинаковые.
О. Возможно, стоит пересмотреть структуру сайта: такие страницы, кажется, не смогут находиться по релевантным запросам, поэтому часто их стоит объединить в одну страницу и использовать её в качестве посадочной страницы по группе запросов.

15 комментариев
Добрый день.
В моём Яндекс.Вебмастере, в отчёте “Страницы в поиске”, постоянно встречаются страницы со статусом “Недостаточно качественная”, при условии, что на этих страницах стоят указания на канонические версии. Статусы “Неканоническая” тоже встречаются, но много реже. Это правильно?
Ситуация может быть вызвана тем, что на момент обращения роботом на страницах не было алгоритма, они проиндексировались, а после были исключены в результате работы алгоритма. После их переобхода, когда робот отследит установленный атрибут, статус страниц должен измениться.
“Недостаточно качественная”   это как мало показов
Никому не нужен товар
grechkopv,
 то есть, согласно вашему ответу, это недостаточно качественная неканоническая версия страницы. Согласен, осознавая, что эта версия страницы будет востребована меньшим количеством пользователя, я и указал на ней ссылку на каноническую версию, которая востребована. То есть я и не планировал видеть неканоническую версию в поиске.


**Скорректирую вопрос: почему неканонические страницы признаются "Недостаточно качественными", а не "Неканоническими".


Кроме того, прямо сейчас вижу перед собой следующий пример: страница site/группа-товаров-x/ является дублем страницы site/группа-товаров-x/8 где /8 — восьмая страница пейджинга. При этом, восьмая страница указывает на каноническую версию – site/группа-товаров-x/ Запутанная история.
grechkopv,
Что то вроде, до здравствует Алла Пугачева и Филипп Кирокоров.
Подскажите пожалуйста:
1. Что лучше использовать для get параметров (сортировка, фильтрация, отслеживания РК) canonical или clean-param?
2. Как в clean-param добавить get параметры с квадратными скобками, например "?param[]=" или "?paran[1]="?
1. Можно использовать как атрибут rel="canonical", так и директиву Clean-param в robots.txt. Если страниц большое количество, директива Clean-param, возможно, будет более эффективна, поскольку для ее использования роботу не потребуется повторно индексировать каждую из страниц с Get-параметрами в отдельности для их исключения.
2. К сожалению, такой возможности сейчас нет.
Здрасти!
Тут пишите, что даже меню и футер можно закрыть.
Значит всё таки можно закрыть так?
<noindex><header></header></noindex>
и
<noindex><footer></footer></noindex>?
sinyashin69,
теоретически да. Но намек на то, что делать этого без крайне й необходимости не стоит, довольно явный: "не лучший, но действующий...". 
Да, такой запрет возможен. При это мы рекомендуем убедиться, что нужный для индексирования контент не попадет под запрет и использовать такой метод в случае, когда избежать дублирования страниц с помощью других методов не получается.
platon,
О-о-о! Ко мне пришла бригада с хорошими советами. Да, лучше закрыть блоки, где объявления или реклама. А на счёт хедер и футер я переживаю, наверно их не стоит закрывать. Спасибо за совет!
Добрый день!
Помогите разобраться, дано:
2 и более страницы с описанием экскурсии, которая начинается из одного города и другого города. Контент одинаковый у этих страниц так как экскурсия одна, а запросы от пользователей разные, к примеру Экскурсия "ААА" из города 1, Экскурсия "ААА" из города 2, и т.д.
Что делать в данном случае?
прописать rel="canonical" или поставить 301 редирект так как там title под конкретный город заточен у каждой страницы? если поставить 301 соответственно мы ссылаемся на экскурсию из другого города противоречивую запроса. Будет ли тогда поисковик показывать ссылаемую страницу если она не подходит под запрос пользователя по параметрам?

Спасибо
Пожалуйста, напишите нам об этом в службу поддержки, постараемся пообщаться более предметно.
Обновлено 6 декабря, 16:14
Платон, подскажите, пожалуйста. Столкнулся с ситуацией, когда, ввиду закончившегося места на диске сервера, на сайте случился сбой, характеризующийся ошибкой доступа к базе данных. В Вебмастере получил уведомление, что более сотни страниц удалены. Проверил по какой причине. Оказывается они помечены как дубли, хотя содержимое страниц отличается. Проанализировал выдачу. Оказалось, что дублирование произошло по той самой причине сбоя, т.к. сайт отдавал роботу не контент, а ошибку доступа к базе. Таким образом на поисковой запрос в выдаче Яндекса вместо заголовка получаю ответ: Notice: Error: Got error 28 from storage engine Error No: 1030...
Вопрос. Как исправить ситуацию? Нужно что-то предпринимать самостоятельно для переиндексации проблемных страниц или нужно дожидаться переобхода страниц роботом?
Если сейчас сайт работает и проблем с доступностью нет, то нужно просто дождаться переобхода страниц.