Блог Яндекса для вебмастеров

Расширенный формат robots.txt

21 декабря 2007, 20:49
Файл robots.txt используется веб-мастерами, чтобы объяснить роботу поисковой системы, какие страницы и разделы сайта нельзя индексировать, а какие можно. Стандарт предусматривает небольшой набор директив, поэтому написание правил индексации для крупных сайтов является сложной задачей. Мы решили упростить эту работу и с сегодняшнего дня поддерживаем в robots.txt директиву Allow, спецсимволы "*" и "$".

 В Помощи рассказано , как интерпретируются все директивы robots.txt, приведены примеры. Надеемся, что теперь найти общий язык с роботом Яндекса будет легче.


Александр Садовский, дрессировщик роботов
37 комментариев
Подписаться на комментарии к посту
Спасибо! Сделали бы еще поддержку rel="nofollow" (или rel="noindex" чтобы плагиаторами не называли), вообще бы отлично было... т.к. я несуществующий ни в одном стандарте W3C тэг noindex принципиально не использую :)
Коля, ты ханжа. 8)
Я просто скромно стараюсь придерживаться стандартов.
Ок, думаю, не стоит продолжать сугубо религиозный спор. 8)
Э не, про это я вообще даже спорить не буду, наспорился уже когда-то.
О, это просто отлично. Наконец-то избавлюсь от ошибок из-за RSSок и трекбеков на блоге!
И сразу вопрос: эти расширения касаются только робота-индексатора, или роботы Я,блогов и Я.Директа тоже все это умеют?
А следующим шагом (чтобы обогнать Google) - будет, надо полагать, создание отдельные юзер-агентов для каждого типа робота. Есть же Google_Image... Особо обсчественность ждет отдельный юзер-агент Yandex-Mirror. Не помню, что он делает ;)
Ага, типа не пускать зеркальщика на свой сайт? 8)
А то ;) тогда сквозняки будут работать вечно :))))
А ты считаешь, что щас они не работают вечно?
Ну вот, опять лекции к курсам переписывать :) Несколько дней назад посылал же специальный запрос на разъяснение - поддерживаете ли Allow. Ответили - не поддерживаем. Могли уж сказать, что скоро начнете. Чего прятаться-то - все свои ;)
Кстати, о помощи. Комментарии в robots.txt неплохо бы писать в отдельной строке. А вообще - молодцы, что говорить. Итак, Google поддерживает Allow, вы тоже. Стандарт устарел?
Саша, а как будет реагировать Яндекс на: User-Agent: Yandex Disallow: / Allow: / То есть в случае противоречия инструкций. У вас в примерах описаны корректные противоречия :)
По-моему, фразой "Если для данной страницы сайта подходит несколько директив, то выбирается первая в порядке появления в выбранном User-agent блоке" даётся исчерпывающий ответ на твой вопрос :)
Анализатор robots.txt в Яндекс.Вебмастере уже поддерживает новые директивы и спецсимволы, поэтому можно скопировать этот код и проверить, какие страницы запрещены, какие нет. Ниже Константин дал правильный ответ в общем виде.
Александр, вопрос по теме - почему анализатор robots.txt перестал реагировать на директиву Host?
Тоже хорошо! :-)
Ваша запись особенно актуальна сегодня, когда каталог DMOZ (ODP) исчез из индекса Яндекса. Исчез потому, что был неправильно "склеен". Так как довольно сложно объяснить AOL'у, что им надо вносить в dmoz.org/robots.txt нестандартные директивы специально для Яндекса.
Гуд будим тренироваться...
>При написании robots.txt необходимо помнить, что в роботе есть разумное ограничение на его размер. Слишком большие robots.txt считаются полностью запрещающими... Разумное ограничение - это сколько?
Вот ещё бы поддержку директивы Sitemap: ... .... sitemap.xml
Обязательно сделаем.
Директива в robots.txt Disallow: /*p= при этом Анализ robots.txt в сервисе говорит следующее /news/?pp=1&slovo=... разрешен /news/?p=1&slovo=2 запрещен правилом /*p=* /?pp=1&slovo разрешен /?p=1 запрещен правилом /*p=* если я все правильно понимаю должны быть запрещены все 4
Комментарий удалён
Исправили.
Анализатор синтаксиса Yandex выдает, что он не знает что такое Disallow: и Allow: хотя в помощи явно сказано, что Цитата: Отсутствие параметров у директивы трактуется следующим образом: User-agent: Yandex Disallow: # тоже что и Allow: / User-agent: Yandex Allow: # тоже что и Disallow: /
Тоже обнаружил эту ошибку. Хотелось бы разъяснения =) Доколе?! +1
А поддежка директивы Crawl-Delay - непосильная задача для Яндекса, или есть какие-то предрасудки против неё ?
Очень важный вопрос! Подписываюсь!!!
Где-то год назад столкнулся с проблемой под названием "вылет морды". Пока разобрался и нашел на форумах, что нужно сделать, две недели просидел почти без выдачи. С тех пор и по сей день - Disallow: /index.html. Скажите почему об этом нет в Помощи, если проблема присутствует? Или эта ситуация уже не актуальна?
Александр, а в планах Яндекса сделать такую же штуку, как гугла (не в целях скопировать, а просто это удобно) - вводишь запрос, а он предлагает возможные варианты (10 штук) с количеством результатов. Такая знатная штука ведь :) Пару букв ввел, стрелочку вниз и enter. Патриотизм патриотизмом, а искать хочется быстро и удобно...
Такая возможность есть, но пока только в Яндекс.Баре (http://bar.yandex.ru/). Думаю, со временем появится и в большом поиске.
Бар - это не интересно. Меня именно самая строка интересует, хоть опционально.
Тогда будем ждать ;)
Подскажите, пожалуйста, по такому robots.txt: User-agent: * Disallow: /cgi-bin User-agent: Yandex Disallow: /modules/cat/ Disallow: /links/ Вопросы конкретно такие: 1. как правильно указать Yandex или yandex или это не имеет значения? 2. чтобы закрыть от индексации Яндексом две директории: _http://сайт /modules/1/ и _http://сайт /2/ как правильно написать? Потому как на сайтах где я хотел закрыть лишь одну директорию в виде: User-agent: Yandex Disallow: /1/ сработало, ошибки ушли в ноль, а на сайте с необходимостью закрыть 2 папки ошибки остались (robots.txt выше приведен оттуда). Думаю в нем какая-то ошибка, но не могу понять какая. Факи где мог уже прочитал...

Весьма познавательно ! :-)