Блог Яндекса для вебмастеров

Изменения в обработке robots.txt

10 июня 2016, 14:27

Поисковые роботы Яндекса перестают учитывать пустую директиву Allow как запрещающий сигнал в robots.txt.

Часто индексирующий робот не может получить доступ к сайтам из-за установленного по ошибке в robots.txt запрета на посещение всех страниц. Часть этих ошибок связана с использованием пустой директивы Allow:

User-agent: *
Allow:

Ранее робот интерпретировал это правило как полностью запрещающее, что делало сайт недоступным для посещения роботов, и такие сайты не могли показываться в результатах поиска. Когда же владельцы сайтов намеренно хотели запретить посещение сайтов, они обычно четко прописывали команду запрета.

Поэтому мы решили изменить обработку роботом такой директивы - сейчас она игнорируется при обнаружении в robots.txt. Если на вашем сайте намеренно используются пустое правило Allow в robots.txt, то для того, чтобы робот корректно учитывал запрет, правило нужно изменить на директиву Disallow:

Disallow: *

Или

Disallow: /

Проверить, что разрешено, а что запрещено в robots.txt можно в Яндекс.Вебмастере. Рекомендуем обратить особое внимание на пустые значения для Allow - если нужно запретить индексирование, то их быть не должно.


Теперь ограничения в robots.txt работают еще надёжнее
Команда Поиска

32 комментария
Комментарий удалён
firstlena.pershina
10 июня 2016, 15:03
ym00,
Ну, мы работаем и с учётом ошибок новичков тоже, так что тема важная.   Для быстрой склейки зеркал тоже очень много сделано и еще больше будет сделано, так что и эту тему без внимания мы не оставляем. 
Pavel A. Pushkarev
11 июня 2016, 15:17
ym00,
Насколько я помню, с месяц назад, в ФБ группах проскакивала информация с рекомендацией указывать
Allow: / 
ym00,
это ничего не говорит о проекте. Есть, например, CMS у которых директория с картинками лежит в папках с модулями, которые, естественно, не должны попасть в индекс. Как в этом случае действовать без Allow (я имею в виду без шаманских танцев)?
ym00,
"Параметр Allow указывают только новички или непрофессионалы"


С х... хрена ли?


support.google.com:

Allow: [the URL path in of a subdirectory, within a blocked parent directory, that you want to unblock]
Хотелось бы спросить у первоисточника...
Раньше было модно дублировать для "User-agent: Yandex" - всё, что написано для "User-agent: *" без изменений.
Сейчас можно писать только User-agent: * ? Или нужно дублировать для роботов Яндекса отдельно?
N2061555,
Отдельно нужно писать, если есть отдельные правила. Если правила одинаковые - зачем писать?
Проверьте в вебмастере, если правила распознаются - значит все ок
firstlena.pershina
22 июня 2016, 20:10
N2061555,
Да, специально дублировать не нужно, если отличий нет.
80% сайтов вообще не используют Роботс:) 
credo120,
Да, я например пользуюсь мета-тегами роботс
Наконец то.
По-моему, это изменение нарушает логику обработки директив. Т.е, пустой Disallow: у вас работает, а пустой Allow: нет.
Может, кто-то намеренно так запретил сайт для индексации, а теперь, будет удивляться, почему у него страницы в индекс полезли... Не все ведь ваш блог читают.


Pahanbox,
с логикой проблемы у того, кто вместо "Запретить всё" даёт директиву "Разрешить ничего" :)
Вот это новость у меня же 15 тестовых поддоменов, с директивой Allow, от 3 нету фтп доступа, как быть?
К примеру у сайта по строительство домов из оцилиндрованного бревна http://www.ecodom98.ru есть тестовый поддомен, нету доступов, как поменять Allow на Dissalow? 
А подскажите, если запретить в robots.txt индексацию страниц с изображениями, сами изображения с неё будут индексироваться .→ stroygefest.com
MaselMusic,
Самый простой способ:
Создайте 2 папки.
Одну закройте в robots.txt Dissalow: /images/ - та, которую не нужно индексировать.
Вторую /images2/ - та, которую нужно индексировать.
Если закрываете просто статьи, то картинки индексируются.
Смотрите пример реализации на сайте www.novrek.ru
lms.web,
так мне как раз и нужно чтобы все картинки индексировались, у меня на сайте june-design.ru все картинки уникальные. Я просто не понимаю, индексируются они или нет. Есть смысл добавлять в robots.txt строку Allow: /images/ якобы принудительно указывая на индексацию всех файлов изображений или в таком случае они будут заходить в индекс как url страницы вида site.ru/imges/kartinka.jpg ? (что не особо хорошо, насколько мне известно)
Кстати, у меня на моём блоге о боксе, есть файл robots.txt, по соответствующему адресу, но яндекс.вебмастер пишет, что на запрос https://puncher-blog.blogspot.com/robots.txt мой сайт отвечает редиректом, хотя можете посмотреть никакого редиректа там на моём блоге нет.
Здравствуйте.
Мне нужно заблокировать индексирование страницы http://www.blood47.ru/wp-content/uploads/2016/04/sotrudniki_cklo.pdf, чтобы она не выдавалась в поиске, а попасть на неё можно было только непосредственно со страницы, кликнув на ссылку.
Вопрос:
достаточно ли в robots.txt написать Disallow: /*/uploads/2016/*.pdf$
или лучше Disallow: /wp-content/uploads/2016/04/sotrudniki_cklo.pdf ?
У меня показывает в вебмастере что сайт закрыт для индексации в robots.txt, хотя на самом деле все открыто, другие поисковики не видят ошибок, вот собственно и сам сайт http://newkinogo.club/ - в чем может быть проблема?
info@proekt-stroy.com
18 января, 19:27
Здравствуйте. Помогите разобраться с robots.txt
У меня в кабинете для веб мастера пишет ошибку, что   Найдено несколько правил вида User-agent: * показано что на 31 строке, где это находиться понятно, вопрос в том как это исправить: может удалить совсем, может что то подкорректировать?
Спасибо за ответ.

Ниже, полностью  скопирован мой robots.txt


1.# Added by SEO Ultimate's Link Mask Generator module
2.User-agent: *
3.Disallow: /go/
4.# End Link Mask Generator output
5.
6.User-agent: Yandex
7.Disallow: /cgi-bin
8.Disallow: /wp-admin
9.Disallow: /wp-includes
10.Allow: /wp-includes/js
11.Allow: /wp-content/plugins
12.Allow: /wp-content/themes
13.Allow: /wp-content/uploads
14.Disallow: /wp-content/cache
15.Disallow: /wp-trackback
16.Disallow: /wp-feed
17.Disallow: */trackback
18.Disallow: /*?replytocom
19.Disallow: /files/
20.Disallow: /date/
21.Disallow: /page/
22.Disallow: /catalog/
23.Disallow: /netcat_files/
24.Disallow: /services/
25.Disallow: *comment-page-*
26.Disallow: /go/
27.Disallow: /project/portfolio-8-2/
28.Allow: /
29.Host: https://proekt-stroy.com
30.
31.User-agent: *
32.Disallow: /cgi-bin
33.Disallow: /wp-admin
34.Disallow: /wp-includes
35.Allow: /wp-includes/js
36.Allow: /wp-content/plugins
37.Allow: /wp-content/themes
38.Allow: /wp-content/uploads
39.Disallow: /wp-content/cache
40.Disallow: /wp-trackback
41.Disallow: /wp-feed
42.Disallow: */trackback
43.Disallow: /*?replytocom
44.Disallow: /files/
45.Disallow: /date/
46.Disallow: /page/
47.Disallow: /catalog/
48.Disallow: /netcat_files/
49.Disallow: /services/
50.Disallow: *comment-page-*
51.Disallow: /project/portfolio-8-2/
52.Allow: /
53.Sitemap: https://proekt-stroy.com/sitemap.xml
Вопрос:Яндекс дает нагрузку на сайт (ло логам accesslog смотрел, долбит через пару секунд целый день) . Исправил robots.txt (добавил Crawl-delay:30), проверил в Вебмастере, ок. Нагрузка сохраняется.. сколько ждать реакции Яндекса обычно ?
Обновлено 19 января, 08:41
invisible.trust
27 апреля, 20:56
jkeks1,
Присоединяюсь к вопросу, очень насущный. Уже стал отдавать 502 - яндекс.боту, лишь бы дождаться, когда он перечитает и перестанет ходить на некоторые url. - Сколько должно пройти времени с момента изменения robots.txt и вступления его в силу? Или задания распределенные и единожды попавший бот на сайт - перечитает robots.txt через год, когда дойдет до конца сайта?
На сайте 129 страниц, а робот загружает 463,например,
 https://autoelectric.org/index.php/images/images/images/uploads/images/images/images/uploads/images/goldline.gif

Папка index.php не существует.
Такую ссылку ни один шизофреник не напишет.
Куды бечь?
firstlena.pershina
9 февраля, 14:52
yurymaslov,
В поддержку Вебмастера можно написать (ссылка внизу страницы сервиса) - это явно вопрос об индексировании. Наша поддержка сможет сказать, откуда взялась эта ссылка в поиске.
firstlena.pershina,
Речь о загруженных страницах с сайта. При чём здесь любые ссылки?
Обновлено 9 февраля, 17:02
firstlena.pershina
9 февраля, 20:46
yurymaslov,
Робот их тоже не сам придумал, нужно понять, где он нашел такие ссылки - и в этом может постараться помочь поддержка Вебмастера. 
firstlena.pershina,
Речь о загруженных страницах с сайта. При чём здесь любые ссылки?
На этом сайте https://reputocracy.gr/ роботс самой менять нельзя, это тильда. Если кто в курсе, подскажите, пожалуйста, тот роботс, который сформирован там автоматически, с ним всё в порядке или он сформирован не корректно и могут быть проблемы с индексированием и ранжированием? Заранее большое спасибо всем ответившим
Здравствуйте. Закрыл сайт от индексации, методом тыка вот разбираюсь. После этого сайт вылетел из поиска вообще. Даже если вбить "покровбогородицы.рф". Заменяю роботс, но он не меняется в покровбогородицы.рф/robots.txt. Что делать? Это значит, что сайт больше не появится в поиске?
firstlena.pershina
Сотрудник Яндекса1 ноября, 11:05
mak2make,
У вас сейчас в robots.txt стоит запрет на индексирование всего сайта, пока запрет не будет снят, робот не может индексировать сайт и добавлять его в поиск. Вам нужно на вашей стороне поменять robots.txt, это настройка именно на стороне вашего сайта, поиск тут ни чем, к сожалению, помочь не можем. В чем именно проблема с тем, чтобы обновить robots? 
firstlena.pershina,
Я поменял роботс, загрузил на хостинг, но ничего не меняется почему то
firstlena.pershina
Сотрудник Яндекса1 ноября, 22:35
mak2make,
Это вопрос к хостингу тогда, нам тут сложно сказать, в чем проблема на стороне хостинга.