Платон Щукин

декабрь 2017
Дубли: как их избежать. Вопросы и ответы.
5 декабря 2017, 14:08

В советах интернет-магазинам я уже затрагивал страницы товаров с похожим или идентичным контентом. Сегодня расскажу о том, как избежать признания страниц дублирующими, и отвечу на популярные вопросы по этой теме.

Что называем дублями?

Страницы, текстовое содержимое которых полностью или практически совпадает.

Популярные примеры это страницы с GET-параметрами и метками (UTM и др.) в url, а также страницы в разных разделах сайта с отличающимся только url. Наличие таковых не приносит пользы и может негативно сказаться на разных этапах взаимодействия с поисковой системой:

  • До момента определения страниц дублями они могут конкурировать между собой в результатах поиска по запросам и пользователь после перехода на сайт может оказаться не на целевой для него странице.
  • Когда индексирующий робот определит дубли, в поиске останется только одна страница-дубль, которая будет выбрана автоматически. А так как робот может пересматривать свой выбор, то страница в поиске может меняться.
  • На обход дублей роботу требуется время, из-за чего обход нужных страниц сайта может занимать больше времени.

Чтобы избавиться от дублей и последствий их появления, мы рекомендуем настраивать у них атрибут rel="canonical", указывая основной адрес, либо использовать редирект 301 на нужные страницы - это укажет роботу на то, какая из страниц должна быть в поиске.

Случается, что робот признаёт дублями разные, казалось бы по внешнему виду, страницы. А присутствие в поиске каждой могло быть полезно сайту и пользователю, который осуществляет поиск. Единственно правильное решение это сделать их значительно отличающимися:

  • добавить разное текстовое содержимое;
  • добавить UGC в виде возможности пользователям оставлять комментарии, рецензии и т.п.;
  • не лучший, но действующий метод - использование тега noindex: "шаблон" сайта содержит на страницах большое количество текста, который совпадает на всех страницах, что может частично повлиять на признание страниц дублями. В такой ситуации возможно использовать тег noindex, запретив к индексированию совпадающий текст: меню навигации, "подвал" сайта и т.п., то есть всё то, что робот видит в качестве идентичного текста.

Рубрика Вопрос/Ответ

В. У страниц почти одинаковый адрес, не посчитает ли их робот дублирующими?
О. Нет, сравнивается непосредственно содержимое самих страниц и адрес не играет роли.

В. У меня фото разное на страницах, а текст одинаковый, будут дубли?
О. Да, такие страницы будут признаны дублирующими. Чтобы страницы индексировались отдельно друг от друга, необходимы отличия в текстовом содержимом.

В. Совершенно разные по содержимому и тексту страницы признаются дублями одной страницы и исключаются из поиска, почему?
О. Такая ситуация, как правило, связана с тем, что страницы в какой-то момент отдавали сообщение об ошибке. Проверить это можно при помощи оператора [url:] в результатах поиска. Найдите с его помощью страницу-дубль, включенную в поиск: в описании страницы будет отображаться то сообщение, которое получал наш робот, когда посещал страницы. Проверьте сохраненную копию страницы: в ней тоже мог сохраниться контент, получаемый роботом. Используя инструмент "Проверка ответа сервера" посмотрите, какое содержимое страницы отдают сейчас. Если страницы отдают разное содержимое, то они смогут вернуться в поиск после их повторного индексирования. Ускорить этот процесс поможет инструмент переобхода в Яндекс.Вебмастере.
Чтобы избежать исключения страниц из поиска в случае кратковременной недоступности сайта, мы рекомендуем настраивать со страниц HTTP-код ответа 503.

В. Со страниц-дублей установлен редирект на нужные страницы, но в поиске все равно участвуют неправильные страницы.
О. Убедитесь, что на страницах установлен постоянный редирект 301. В случае временного редиректа 302 или использования мета-тега refresh в поиске может участвовать страница по наиболее короткому адресу. Если установлен постоянный редирект, возможно, что робот еще не успел повторно проиндексировать страницу: с помощью инструмента "Проверка статуса URL" Вы можете проверить, какая версия страницы участвует в поиске и ее статус. Ускорить переобход страниц с редиректом также поможет "Переобход страниц" - в течение одной-двух недель они выпадут из поиска.

В. Можно ли использовать директиву Disallow в robots.txt для запрета индексирования дублей?
О. Да, такой запрет можно использовать, однако при использовании директивы Disallow передать какие-либо показатели запрещенных страниц не получится, поэтому мы рекомендуем использовать атрибут тега <link> rel="canonical", либо редирект. Для страниц с GET-параметрами можно использовать директиву Clean-param.

В. На страницы товаров больше нечего добавить: они, к примеру, отличаются только фото, но цена и описание одинаковые.
О. Возможно, стоит пересмотреть структуру сайта: такие страницы, кажется, не смогут находиться по релевантным запросам, поэтому часто их стоит объединить в одну страницу и использовать её в качестве посадочной страницы по группе запросов.

53 комментария
полезное от Платона,на заметку
Наша новогодняя традиция: опрос Яндекса для владельцев сайтов и вебмастеров
21 декабря 2017, 13:27

У нас есть новогодняя традиция: за несколько дней до праздника мы спрашиваем вебмастеров и владельцев сайтов, как им работалось в уходящем году с сервисами Яндекса. Как поживают ваши проекты? Как себя вел Вебмастер — хорошо или не очень? С чем он вам помог, а с чем нет?

Опрос небольшой и займёт всего минут десять. Вот он:

Если вы уже заполняли анкету год назад (спасибо!) — пожалуйста, сделайте это снова. В этом году мы многое поменяли — и нам важно оценить результат. 
Если вас что-то смутило, или, наоборот, понравилось, обязательно напишите нам об этом!

Команда Поиска

1 комментарий
Как перестать беспокоиться о сайте и уйти на каникулы.
26 декабря 2017, 15:09

Проверяете Яндекс.Вебмастер едва ли не чаще, чем социальные сети? Мы вас так понимаем :) Благодаря многочисленным новым инструментам, которые появились в сервисе за этот год, новые данные появляются ежедневно, а то и чаще. К тому же самые важные из них отлично видны на единой странице "Сводка". Иногда достаточно одного взгляда на неё, чтобы увидеть проблему.

Впереди зимние праздники и каникулы - отличное время, чтобы проводить больше времени со своими родными и близкими. А Яндекс.Вебмастер позаботится, чтобы вы не упустили из виду существенные события в жизни сайта. Рассказываем, как.

1. Настройте мониторинг самых важных страниц сайта с помощью инструмента "Важные страницы": добавьте адреса, которые нужно отслеживать, и настройте уведомления в этом же разделе, указав, о каких событиях сообщать. Например, если страница с вашим основным товаром, услугой, самой популярной у посетителей статьей перестанет отвечать роботу кодом 200, вы в ближайшее время получите письмо по электронной почте и сможете исправить ситуацию, не допустив выпадения страницы из поиска.

Полезно отметить и событие изменения заголовка. Вряд ли страница с детскими санками вдруг станет называться "самокат", но может случиться так, что из-за проблем на сервере поисковый робот получит страницу-заглушку с кодом ответа 200 со служебным текстом.

2. В разделе "Настройка уведомлений" установите получение сообщений о проблемах на сайте. Если сайтов у вас много, будет очень кстати возможность индивидуальной настройки уведомлений для каждого из них. Напоминаем, что точка означает общую настройку, а конверт или звонок - индивидуальную для сайта.

Советуем не пренебрегать колонкой "рекомендации", ведь в эту категорию попадают сообщения о неработающем счётчике Яндекс.Метрики. Эта рекомендация - одна из последних "фишек" в разделе "Диагностика сайта" - появилась потому, что Яндекс.Метрика становится всё более важным источником данных для Поиска. Если посетители решают на вашем сайте свои задачи, согласитесь, будет здорово, если наши алгоритмы об этом узнают.

3. Подпишитесь на дайджест - еженедельное письмо о том, что происходило с сайтом. Подписка настраивается в колонке "Еженедельная сводка по сайту" в том же разделе "Настройка уведомлений". Дайджест не сообщит о проблемах мгновенно, но даст общую картину: вы узнаете об изменении общего количества страниц в поиске, динамике кликов и показов, решении критичных и фатальных проблем, если такие были.

Не забудьте, пожалуйста, что для получения писем по электронной почте нужно обязательно указать её адрес в поле "Адрес для почтовых уведомлений".

Даже если вы контрол-фрик вебмастер с повышенным уровнем ответственности, не забывайте, что отдыхать все-таки надо. Делегируйте права на сайт кому-то из коллег, чтобы они могли сменить вас на посту. Линия на графике кликов пошла вниз, а в блоке "Обновления поиска" нарисовался длинный синий столбик ниже нуля? - Дело плохо: из поиска выпали важные страницы, которые хорошо находились по запросам и привлекали пользователей. Скорее ищите причину исключения страниц внутри раздела "Страницы в поиске", а когда устраните её - отправляйте страницы на переобход. На графике обхода появились ошибки 5xx? - Будите специалистов хостинга, пусть разберутся, что не так с доступностью сервера.

А вообще, не забывайте, что Новый Год - это время чудес и радости, поэтому, как я уже писал выше, позвольте себе расслабиться и отдохнуть ;) А я хочу пожелать вам в Новом Году роста конверсии и посещаемости, быстрой индексации, побольше пользователей и общего процветания проектам!

P.S. Не забудьте про нашу новогоднюю традицию: опрос о нашей работе по итогам года ;)

Ваш Платон.

4 комментария
Яндекс.Вебмастер,на заметку