Блог Яндекса для вебмастеров

Изменения в обработке robots.txt

10 июня 2016, 14:27

Поисковые роботы Яндекса перестают учитывать пустую директиву Allow как запрещающий сигнал в robots.txt.

Часто индексирующий робот не может получить доступ к сайтам из-за установленного по ошибке в robots.txt запрета на посещение всех страниц. Часть этих ошибок связана с использованием пустой директивы Allow:

User-agent: *
Allow:

Ранее робот интерпретировал это правило как полностью запрещающее, что делало сайт недоступным для посещения роботов, и такие сайты не могли показываться в результатах поиска. Когда же владельцы сайтов намеренно хотели запретить посещение сайтов, они обычно четко прописывали команду запрета.

Поэтому мы решили изменить обработку роботом такой директивы - сейчас она игнорируется при обнаружении в robots.txt. Если на вашем сайте намеренно используются пустое правило Allow в robots.txt, то для того, чтобы робот корректно учитывал запрет, правило нужно изменить на директиву Disallow:

Disallow: *

Или

Disallow: /

Проверить, что разрешено, а что запрещено в robots.txt можно в Яндекс.Вебмастере. Рекомендуем обратить особое внимание на пустые значения для Allow - если нужно запретить индексирование, то их быть не должно.


Теперь ограничения в robots.txt работают еще надёжнее
Команда Поиска

26 комментариев
Подписаться на комментарии к посту
Комментарий удалён
firstlena.pershina
10 июня 2016, 15:03
ym00,
Ну, мы работаем и с учётом ошибок новичков тоже, так что тема важная.   Для быстрой склейки зеркал тоже очень много сделано и еще больше будет сделано, так что и эту тему без внимания мы не оставляем. 
ym00,
Насколько я помню, с месяц назад, в ФБ группах проскакивала информация с рекомендацией указывать
Allow: / 
ym00,
это ничего не говорит о проекте. Есть, например, CMS у которых директория с картинками лежит в папках с модулями, которые, естественно, не должны попасть в индекс. Как в этом случае действовать без Allow (я имею в виду без шаманских танцев)?
ym00,
"Параметр Allow указывают только новички или непрофессионалы"


С х... хрена ли?


support.google.com:

Allow: [the URL path in of a subdirectory, within a blocked parent directory, that you want to unblock]
Хотелось бы спросить у первоисточника...
Раньше было модно дублировать для "User-agent: Yandex" - всё, что написано для "User-agent: *" без изменений.
Сейчас можно писать только User-agent: * ? Или нужно дублировать для роботов Яндекса отдельно?
N2061555,
Отдельно нужно писать, если есть отдельные правила. Если правила одинаковые - зачем писать?
Проверьте в вебмастере, если правила распознаются - значит все ок
firstlena.pershina
22 июня 2016, 20:10
N2061555,
Да, специально дублировать не нужно, если отличий нет.
80% сайтов вообще не используют Роботс:) 
credo120,
Да, я например пользуюсь мета-тегами роботс
Наконец то.
По-моему, это изменение нарушает логику обработки директив. Т.е, пустой Disallow: у вас работает, а пустой Allow: нет.
Может, кто-то намеренно так запретил сайт для индексации, а теперь, будет удивляться, почему у него страницы в индекс полезли... Не все ведь ваш блог читают.


Pahanbox,
с логикой проблемы у того, кто вместо "Запретить всё" даёт директиву "Разрешить ничего" :)
Вот это новость у меня же 15 тестовых поддоменов, с директивой Allow, от 3 нету фтп доступа, как быть?
К примеру у сайта по строительство домов из оцилиндрованного бревна http://www.ecodom98.ru есть тестовый поддомен, нету доступов, как поменять Allow на Dissalow? 
А подскажите, если запретить в robots.txt индексацию страниц с изображениями, сами изображения с неё будут индексироваться .→ stroygefest.com
MaselMusic,
Самый простой способ:
Создайте 2 папки.
Одну закройте в robots.txt Dissalow: /images/ - та, которую не нужно индексировать.
Вторую /images2/ - та, которую нужно индексировать.
Если закрываете просто статьи, то картинки индексируются.
Смотрите пример реализации на сайте www.novrek.ru
lms.web,
так мне как раз и нужно чтобы все картинки индексировались, у меня на сайте june-design.ru все картинки уникальные. Я просто не понимаю, индексируются они или нет. Есть смысл добавлять в robots.txt строку Allow: /images/ якобы принудительно указывая на индексацию всех файлов изображений или в таком случае они будут заходить в индекс как url страницы вида site.ru/imges/kartinka.jpg ? (что не особо хорошо, насколько мне известно)
Кстати, у меня на моём блоге о боксе, есть файл robots.txt, по соответствующему адресу, но яндекс.вебмастер пишет, что на запрос https://puncher-blog.blogspot.com/robots.txt мой сайт отвечает редиректом, хотя можете посмотреть никакого редиректа там на моём блоге нет.
Здравствуйте.
Мне нужно заблокировать индексирование страницы http://www.blood47.ru/wp-content/uploads/2016/04/sotrudniki_cklo.pdf, чтобы она не выдавалась в поиске, а попасть на неё можно было только непосредственно со страницы, кликнув на ссылку.
Вопрос:
достаточно ли в robots.txt написать Disallow: /*/uploads/2016/*.pdf$
или лучше Disallow: /wp-content/uploads/2016/04/sotrudniki_cklo.pdf ?
У меня показывает в вебмастере что сайт закрыт для индексации в robots.txt, хотя на самом деле все открыто, другие поисковики не видят ошибок, вот собственно и сам сайт http://newkinogo.club/ - в чем может быть проблема?
info@proekt-stroy.com
18 января, 19:27
Здравствуйте. Помогите разобраться с robots.txt
У меня в кабинете для веб мастера пишет ошибку, что   Найдено несколько правил вида User-agent: * показано что на 31 строке, где это находиться понятно, вопрос в том как это исправить: может удалить совсем, может что то подкорректировать?
Спасибо за ответ.

Ниже, полностью  скопирован мой robots.txt


1.# Added by SEO Ultimate's Link Mask Generator module
2.User-agent: *
3.Disallow: /go/
4.# End Link Mask Generator output
5.
6.User-agent: Yandex
7.Disallow: /cgi-bin
8.Disallow: /wp-admin
9.Disallow: /wp-includes
10.Allow: /wp-includes/js
11.Allow: /wp-content/plugins
12.Allow: /wp-content/themes
13.Allow: /wp-content/uploads
14.Disallow: /wp-content/cache
15.Disallow: /wp-trackback
16.Disallow: /wp-feed
17.Disallow: */trackback
18.Disallow: /*?replytocom
19.Disallow: /files/
20.Disallow: /date/
21.Disallow: /page/
22.Disallow: /catalog/
23.Disallow: /netcat_files/
24.Disallow: /services/
25.Disallow: *comment-page-*
26.Disallow: /go/
27.Disallow: /project/portfolio-8-2/
28.Allow: /
29.Host: https://proekt-stroy.com
30.
31.User-agent: *
32.Disallow: /cgi-bin
33.Disallow: /wp-admin
34.Disallow: /wp-includes
35.Allow: /wp-includes/js
36.Allow: /wp-content/plugins
37.Allow: /wp-content/themes
38.Allow: /wp-content/uploads
39.Disallow: /wp-content/cache
40.Disallow: /wp-trackback
41.Disallow: /wp-feed
42.Disallow: */trackback
43.Disallow: /*?replytocom
44.Disallow: /files/
45.Disallow: /date/
46.Disallow: /page/
47.Disallow: /catalog/
48.Disallow: /netcat_files/
49.Disallow: /services/
50.Disallow: *comment-page-*
51.Disallow: /project/portfolio-8-2/
52.Allow: /
53.Sitemap: https://proekt-stroy.com/sitemap.xml
Вопрос:Яндекс дает нагрузку на сайт (ло логам accesslog смотрел, долбит через пару секунд целый день) . Исправил robots.txt (добавил Crawl-delay:30), проверил в Вебмастере, ок. Нагрузка сохраняется.. сколько ждать реакции Яндекса обычно ?
Обновлено 19 января, 08:41
На сайте 129 страниц, а робот загружает 463,например,
 https://autoelectric.org/index.php/images/images/images/uploads/images/images/images/uploads/images/goldline.gif

Папка index.php не существует.
Такую ссылку ни один шизофреник не напишет.
Куды бечь?
firstlena.pershina
9 февраля, 14:52
yurymaslov,
В поддержку Вебмастера можно написать (ссылка внизу страницы сервиса) - это явно вопрос об индексировании. Наша поддержка сможет сказать, откуда взялась эта ссылка в поиске.
firstlena.pershina,
Речь о загруженных страницах с сайта. При чём здесь любые ссылки?
Обновлено 9 февраля, 17:02
firstlena.pershina
9 февраля, 20:46
yurymaslov,
Робот их тоже не сам придумал, нужно понять, где он нашел такие ссылки - и в этом может постараться помочь поддержка Вебмастера. 
firstlena.pershina,
Речь о загруженных страницах с сайта. При чём здесь любые ссылки?