Платон Щукин

Дубли: как их избежать. Вопросы и ответы.

5 декабря 2017, 14:08

В советах интернет-магазинам я уже затрагивал страницы товаров с похожим или идентичным контентом. Сегодня расскажу о том, как избежать признания страниц дублирующими, и отвечу на популярные вопросы по этой теме.

Что называем дублями?

Страницы, текстовое содержимое которых полностью или практически совпадает.

Популярные примеры это страницы с GET-параметрами и метками (UTM и др.) в url, а также страницы в разных разделах сайта с отличающимся только url. Наличие таковых не приносит пользы и может негативно сказаться на разных этапах взаимодействия с поисковой системой:

  • До момента определения страниц дублями они могут конкурировать между собой в результатах поиска по запросам и пользователь после перехода на сайт может оказаться не на целевой для него странице.
  • Когда индексирующий робот определит дубли, в поиске останется только одна страница-дубль, которая будет выбрана автоматически. А так как робот может пересматривать свой выбор, то страница в поиске может меняться.
  • На обход дублей роботу требуется время, из-за чего обход нужных страниц сайта может занимать больше времени.

Чтобы избавиться от дублей и последствий их появления, мы рекомендуем настраивать у них атрибут rel="canonical", указывая основной адрес, либо использовать редирект 301 на нужные страницы - это укажет роботу на то, какая из страниц должна быть в поиске.

Случается, что робот признаёт дублями разные, казалось бы по внешнему виду, страницы. А присутствие в поиске каждой могло быть полезно сайту и пользователю, который осуществляет поиск. Единственно правильное решение это сделать их значительно отличающимися:

  • добавить разное текстовое содержимое;
  • добавить UGC в виде возможности пользователям оставлять комментарии, рецензии и т.п.;
  • не лучший, но действующий метод - использование тега noindex: "шаблон" сайта содержит на страницах большое количество текста, который совпадает на всех страницах, что может частично повлиять на признание страниц дублями. В такой ситуации возможно использовать тег noindex, запретив к индексированию совпадающий текст: меню навигации, "подвал" сайта и т.п., то есть всё то, что робот видит в качестве идентичного текста.

Рубрика Вопрос/Ответ

В. У страниц почти одинаковый адрес, не посчитает ли их робот дублирующими?
О. Нет, сравнивается непосредственно содержимое самих страниц и адрес не играет роли.

В. У меня фото разное на страницах, а текст одинаковый, будут дубли?
О. Да, такие страницы будут признаны дублирующими. Чтобы страницы индексировались отдельно друг от друга, необходимы отличия в текстовом содержимом.

В. Совершенно разные по содержимому и тексту страницы признаются дублями одной страницы и исключаются из поиска, почему?
О. Такая ситуация, как правило, связана с тем, что страницы в какой-то момент отдавали сообщение об ошибке. Проверить это можно при помощи оператора [url:] в результатах поиска. Найдите с его помощью страницу-дубль, включенную в поиск: в описании страницы будет отображаться то сообщение, которое получал наш робот, когда посещал страницы. Проверьте сохраненную копию страницы: в ней тоже мог сохраниться контент, получаемый роботом. Используя инструмент "Проверка ответа сервера" посмотрите, какое содержимое страницы отдают сейчас. Если страницы отдают разное содержимое, то они смогут вернуться в поиск после их повторного индексирования. Ускорить этот процесс поможет инструмент переобхода в Яндекс.Вебмастере.
Чтобы избежать исключения страниц из поиска в случае кратковременной недоступности сайта, мы рекомендуем настраивать со страниц HTTP-код ответа 503.

В. Со страниц-дублей установлен редирект на нужные страницы, но в поиске все равно участвуют неправильные страницы.
О. Убедитесь, что на страницах установлен постоянный редирект 301. В случае временного редиректа 302 или использования мета-тега refresh в поиске может участвовать страница по наиболее короткому адресу. Если установлен постоянный редирект, возможно, что робот еще не успел повторно проиндексировать страницу: с помощью инструмента "Проверка статуса URL" Вы можете проверить, какая версия страницы участвует в поиске и ее статус. Ускорить переобход страниц с редиректом также поможет "Переобход страниц" - в течение одной-двух недель они выпадут из поиска.

В. Можно ли использовать директиву Disallow в robots.txt для запрета индексирования дублей?
О. Да, такой запрет можно использовать, однако при использовании директивы Disallow передать какие-либо показатели запрещенных страниц не получится, поэтому мы рекомендуем использовать атрибут тега <link> rel="canonical", либо редирект. Для страниц с GET-параметрами можно использовать директиву Clean-param.

В. На страницы товаров больше нечего добавить: они, к примеру, отличаются только фото, но цена и описание одинаковые.
О. Возможно, стоит пересмотреть структуру сайта: такие страницы, кажется, не смогут находиться по релевантным запросам, поэтому часто их стоит объединить в одну страницу и использовать её в качестве посадочной страницы по группе запросов.

21 комментарий
Добрый день.
В моём Яндекс.Вебмастере, в отчёте “Страницы в поиске”, постоянно встречаются страницы со статусом “Недостаточно качественная”, при условии, что на этих страницах стоят указания на канонические версии. Статусы “Неканоническая” тоже встречаются, но много реже. Это правильно?
Ситуация может быть вызвана тем, что на момент обращения роботом на страницах не было алгоритма, они проиндексировались, а после были исключены в результате работы алгоритма. После их переобхода, когда робот отследит установленный атрибут, статус страниц должен измениться.
“Недостаточно качественная”   это как мало показов
Никому не нужен товар
grechkopv,
 то есть, согласно вашему ответу, это недостаточно качественная неканоническая версия страницы. Согласен, осознавая, что эта версия страницы будет востребована меньшим количеством пользователя, я и указал на ней ссылку на каноническую версию, которая востребована. То есть я и не планировал видеть неканоническую версию в поиске.


**Скорректирую вопрос: почему неканонические страницы признаются "Недостаточно качественными", а не "Неканоническими".


Кроме того, прямо сейчас вижу перед собой следующий пример: страница site/группа-товаров-x/ является дублем страницы site/группа-товаров-x/8 где /8 — восьмая страница пейджинга. При этом, восьмая страница указывает на каноническую версию – site/группа-товаров-x/ Запутанная история.
grechkopv,
Что то вроде, до здравствует Алла Пугачева и Филипп Кирокоров.
Подскажите пожалуйста:
1. Что лучше использовать для get параметров (сортировка, фильтрация, отслеживания РК) canonical или clean-param?
2. Как в clean-param добавить get параметры с квадратными скобками, например "?param[]=" или "?paran[1]="?
1. Можно использовать как атрибут rel="canonical", так и директиву Clean-param в robots.txt. Если страниц большое количество, директива Clean-param, возможно, будет более эффективна, поскольку для ее использования роботу не потребуется повторно индексировать каждую из страниц с Get-параметрами в отдельности для их исключения.
2. К сожалению, такой возможности сейчас нет.
Здрасти!
Тут пишите, что даже меню и футер можно закрыть.
Значит всё таки можно закрыть так?
<noindex><header></header></noindex>
и
<noindex><footer></footer></noindex>?
sinyashin69,
теоретически да. Но намек на то, что делать этого без крайне й необходимости не стоит, довольно явный: "не лучший, но действующий...". 
Да, такой запрет возможен. При это мы рекомендуем убедиться, что нужный для индексирования контент не попадет под запрет и использовать такой метод в случае, когда избежать дублирования страниц с помощью других методов не получается.
platon,
О-о-о! Ко мне пришла бригада с хорошими советами. Да, лучше закрыть блоки, где объявления или реклама. А на счёт хедер и футер я переживаю, наверно их не стоит закрывать. Спасибо за совет!
Добрый день!
Помогите разобраться, дано:
2 и более страницы с описанием экскурсии, которая начинается из одного города и другого города. Контент одинаковый у этих страниц так как экскурсия одна, а запросы от пользователей разные, к примеру Экскурсия "ААА" из города 1, Экскурсия "ААА" из города 2, и т.д.
Что делать в данном случае?
прописать rel="canonical" или поставить 301 редирект так как там title под конкретный город заточен у каждой страницы? если поставить 301 соответственно мы ссылаемся на экскурсию из другого города противоречивую запроса. Будет ли тогда поисковик показывать ссылаемую страницу если она не подходит под запрос пользователя по параметрам?

Спасибо
Пожалуйста, напишите нам об этом в службу поддержки, постараемся пообщаться более предметно.
Обновлено 6 декабря 2017, 16:14
Платон, подскажите, пожалуйста. Столкнулся с ситуацией, когда, ввиду закончившегося места на диске сервера, на сайте случился сбой, характеризующийся ошибкой доступа к базе данных. В Вебмастере получил уведомление, что более сотни страниц удалены. Проверил по какой причине. Оказывается они помечены как дубли, хотя содержимое страниц отличается. Проанализировал выдачу. Оказалось, что дублирование произошло по той самой причине сбоя, т.к. сайт отдавал роботу не контент, а ошибку доступа к базе. Таким образом на поисковой запрос в выдаче Яндекса вместо заголовка получаю ответ: Notice: Error: Got error 28 from storage engine Error No: 1030...
Вопрос. Как исправить ситуацию? Нужно что-то предпринимать самостоятельно для переиндексации проблемных страниц или нужно дожидаться переобхода страниц роботом?
Если сейчас сайт работает и проблем с доступностью нет, то нужно просто дождаться переобхода страниц. 
Здрасти!
Вспомнил ещё вопрос:
Если закрывать с помощью <noindex> то, что в файле .htaccess нужно прописать, чтобы на странице не индекцировать блоки, и, чтобы не было error?
А то на странице, где есть <noindex> считается как error и является пустое место.
Пожалуйста подскажите как правильно прописать код в .htaccess?
Если ошибка возникает в валидаторе HTML, то можно вот так: 
<!--noindex--><!--/noindex-->
platon,
да, этот вариант работает лучше и без ерроров.
спасибо за подкаст!
Добрый день. Приложу ка я переписку с службой поддержки)
Может кому будет полезно. Стена из СКК непоколебима, скоро СКК из людей будет похожа на робота, а робот наоборот не отличишь от человека.
(хронология снизу вверх, знаю что будет модерация, но главное чтобы хоть кто-то адекватный прочел)




Добрый день, Алексей!

В данный момент Ваш запрос еще находится в работе у моих коллег. Обычно обработка запроса занимает несколько дней. Как только ответ будет предоставлен, мы Вас проинформируем.

Пожалуйста, ожидайте!

-
Пожалуйста, не забудьте оценить мой ответ
-
С уважением, Виктория
Служба поддержки Яндекс.Маркета
=============================
тел.: 8 800 234-24-60 (звонок из регионов России бесплатный)
тел.: +7 495 974-35-60
https://yandex.ru/support/partnermarket/
=============================
A<halakoste@yandex.ru>18 дек. в 09:24

Добрый день.
В течении какого примерно срока?
Partner.Market<partner-market@support.yandex.ru>17 дек. в 16:50
Уважаемый клиент,

Я обратилась с данным вопросом в Службу контроля качества.

Пожалуйста, ожидайте дополнительного письма по результатам рассмотрения.

-
Пожалуйста, не забудьте оценить мой ответ
-
С уважением, Гюльсум
Служба поддержки Яндекс.Маркета
=============================
тел.:8 800 234-24-60(звонок из регионов России бесплатный)
тел.:+7 495 974-35-60
https://yandex.ru/support/partnermarket/
=============================
A<halakoste@yandex.ru>17 дек. в 15:42
Изменения уже внесены, 1. В наименование добавлена фасовка, 2. Если этого недостаточно, мы просто уберём предложения с фасовкой более 1 шт

Какой вариант подходит для возврата?
--
Отправлено из мобильной Яндекс.Почты
Partner.Market<partner-market@support.yandex.ru>17 дек. в 15:40
Добрый день!

Отвечу на Ваши вопросы по порядку:

1) К сожалению, мы не можем учитывать все особенности ведения бизнеса каждого из наших партнеров. Правила и регламент едины для всех магазинов.

Одним из основных требований Я.Маркета является продажа товаров в розницу физическим лицам.

Это означает, что у покупателей должна быть возможность, например, приобрести одну молнию.

Если Вы внесете необходимые изменения, сообщите нам. Мы направим запрос на подключение в Службу контроля качества.

2) Со своей стороны мы тщательно рассматриваем каждую жалобу, реагируем на все письма и обращения. Действительно, случаются ситуации, когда тот или иной магазин нарушает наши Требования к рекламным материалам, отследить все изменения рекламных материалов у нас нет возможности. Большую помощь для выявления недобросовестных магазинов нам оказывают наши пользователи.

Если Вы уже отправили жалобу на такие магазины, то мы разберемся в ситуации и проверим их. В случае выявления нарушений будут приняты соответствующие меры.

Спасибо за обращение.
-
Пожалуйста, не забудьте оценить мой ответ
-
С уважением, Гюльсум
Служба поддержки Яндекс.Маркета
=============================
тел.:8 800 234-24-60(звонок из регионов России бесплатный)
тел.:+7 495 974-35-60
https://yandex.ru/support/partnermarket/
=============================
A<halakoste@yandex.ru>15 дек. в 16:08

Добрый день, подскажите сроки ответа?
Partner.Market<devnull@yandex-team.ru>15 дек. в 14:15
Добрый день!
Ваше письмо получено и зарегистрировано под уникальным номером №3249880. Ответ будет предоставлен в ближайшее время.
Обратите внимание: для обработки запроса нам может понадобиться номер кампании в Яндекс.Маркете или адрес Вашего сайта.
Если у Вас появились дополнительные комментарии к запросу или Вы не указали номер кампании/адрес Вашего сайта, пришлите их ответом на данное сообщение. Просим Вас не создавать отдельное письмо - оно будет считаться новой заявкой и попадет в конец очереди.
Помощь сервиса: https://yandex.ru/support/partnermarket/?from=email

--
С уважением,
Служба поддержки Яндекс Маркета
=============================
тел.:8 800 234-24-60(звонок из регионов России бесплатный)
тел.:+7 495 974-35-60
https://yandex.ru/support/partnermarket/
=============================
15.12.2017, 14:15, "Алексей" <halakoste@yandex.ru>:
Название магазина или № кампании на Маркете:
№11-21364451
Сообщение:
Добрый день. По ошибке с молнией.
Абсолютно вся фурнитура для одежды, обуви, сумок продается упаковками, со штрих кодом, листом описания, инструкцией. Нельзя разорвать упаковку и продать 1 штучку, как это нельзя сделать с конфетами или колбасой в нарезке, купив только 1 кусочек. Так же как нельзя купить одну скрепку, булавку, кнопку, или одну ручку из набора 10 ручек. Я знаю всех ваших резидентов, и я знал что бабуля которая звонит - это ваша проверка, но я не думал, что это оптовое предложение, да и не может быть оно оптовым, вы нигде не сможете купить просто одну упаковку, вам продадут коробку, в ней 30 упаковок по 100 штук. А еще есть фурнитура для игрушек, там упаковки есть по500-1000штук, бантиков, наклеек, глаз, носиков и тд, и упаковки эти стоят например 50-200 рублей, как вы предлагаете вытавлять их на маркете??) по 0,02 рубля?
В целом я могу тогда таким проверкам продавать 1 штучку из упаковки за цену упаковки, и ничем не ограничивать клиента, можно даже половину молнии отрезать или доставлять одну пуговицу, но по цене фасовки.
На данный момент мы ко всем наименованиям товаров в фасовке которых более 1 штуки единиц, добавили доп. описание в скобках в виде (1 упаковка = N штук). Просим вернуть размещение. В противном случае ни один из магазинов торгующих тем же ассортиментом не должен размещаться на маркете, и от нас начнут поступать жалобы по таким предложениям. Я прекрасно понимаю, что вы серьезная площадка, но тогда и подход должен быть серьезным а не роботоширпотребным.
Если же вышеописанное не довод, то увы Ваша площадка перестает быть серьезной в наших глазах, и Вам пора менять ваше руководство, а так же подход к магазинам ответственно подходящим к своей работе.
Повторюсь, что по совету оператора колцентра(запись можно послушать, звонок с+79778788544в 13-05 сегодня) мы ко всем предложениям добавили в скобках фасовку, а также отдельно есть характеристика в доп параметрах юмл, фасовка. Что еще сделать, чтобы Вы не занимались больше ерундой, а тщательнее отслеживали реальные ошибки магазинов, в том числе и наших конкурентов, как то цены, наличие, дубли магазинов и юр лиц, обман по срокам доставки, по цене доставки. Но отключить полностью, за то что нельзя из упаковки разорвать и продать штучку это даже пьяному фантасту во сне не приснится.
Фид уже обновляется, еще минут 20-30, если вдруг это сообщение прочтут раньше, и начнут проверять.

Проконсультировался с коллегами из Маркета. В переписке сотрудники поддержки точно следуют правилам. Ваш запрос и пояснения были переданы Службе качества и сейчас находятся в работе. Как только проверка будет закончена и принято решение, поддержка свяжется с вами и расскажет, что делать.
platon,
Столько лет, сотрудников, офисов, космических идей, толокеров, и бог весть еще каких *океров... А Платон все равно быстрее отвечает, чем все службы вместе взятые) Благодарю.