Определение тематики сайта с помощью робота РСЯ

Робот РСЯ регулярно обходит сайты Рекламной сети и на основе содержания каждой страницы определяет тематику для показа контекстных объявлений.

Когда сайт оказывается недоступен рекламному роботу, контекстная реклама становится менее релевантной его тематике и приносит меньший доход.

О роботе Рекламной сети

Имя робота Рекламной сети — YandexDirect. В User-Agent робот, который индексирует страницы сайтов — участников Рекламной сети Яндекса представляется следующим образом:

Mozilla/5.0 (compatible; YandexDirect/3.0)
Внимание. Блокировка робота User-agent: Yandex в файле robots.txt может привести к блокировке всех роботов Яндекса, включая робота РСЯ.

Для того чтобы удостовериться, что робот РСЯ обходит ваш сайт, необходимо добавить в начало файла robots.txt в корневой папке следующую запись:

User-Agent: YandexDirect
Disallow:

Проверка доступности сайта для робота РСЯ

В Яндекс.Вебмастере в разделе Инструменты → Анализ robots.txt партнеры РСЯ могут проверить доступность страниц своего сайта для индексации роботом YandexDirect. Проверка производится на основании параметров, прописанных в файле robots.txt.

Инструмент позволяет узнать, не были ли страницы сайта по неосторожности закрыты для индексации из-за ошибок в файле robots.txt (например, если нужно было закрыть сайт от поискового робота и оставить открытым только для рекламного, но правило было прописано неверно).

Работа инструмента устроена просто. Необходимо вставить исходный код файла robots.txt или выбрать сайт для проверки. Если окажется, что он запрещен для индексирования рекламным роботом, система выведет соответствующее сообщение, а в некоторых случаях предложит способы решения проблемы.

Скорость обхода сайтов роботом РСЯ

Вы можете управлять скоростью обхода своего сайта роботом РСЯ при помощи директивы Crawl-delay в файле robots.txt.

Директива Crawl-delay устанавливает продолжительность паузы, которую делает робот между загрузками страниц сайта. Если файл robots.txt или директива в нем отсутствует, минимальная пауза составляет 2 секунды. Такая продолжительность паузы обеспечивает оптимальную скорость индексации для большинства сайтов и не создает чрезмерной нагрузки на серверы и хостинг. Например, она позволяет роботу РСЯ полностью проиндексировать сайт, состоящий из нескольких тысяч страниц, в течение суток.

Совет. Крупным сайтам мы рекомендуем устанавливать значение Crawl-delay менее двух секунд. Устанавливать значение Crawl-delay более двух секунд имеет смысл, если робот РСЯ создает ощутимую нагрузку на сайт и мешает его нормальной работе.

Помните, что слишком высокое значение Сrawl-delay может понизить качество рекламы и, соответственно, снизить доход вашего сайта.

О трагическом контексте

Яндекс считает неэтичным показывать рекламу на страницах с трагическим содержанием. С помощью специального фильтра в тексте страниц производится поиск фраз, указывающих на трагическое содержание, и эти страницы могут быть помечены признаком трагичности. При этом для лент новостей сайтов категории «СМИ» предусмотрена возможность игнорировать признак трагичности.