Определение тематики сайта с помощью робота РСЯ

Робот РСЯ регулярно обходит сайты Рекламной сети и на основе содержания каждой страницы определяет тематику для показа контекстных объявлений.

Когда сайт оказывается недоступен рекламному роботу, контекстная реклама становится менее релевантной его тематике и приносит меньший доход.

О роботе Рекламной сети

Имя робота Рекламной сети — YandexDirect. В User-Agent робот, который индексирует страницы сайтов — участников Рекламной сети Яндекса представляется следующим образом:

Mozilla/5.0 (compatible; YandexDirect/3.0)
Внимание. Блокировка робота User-agent: Yandex в файле robots.txt может привести к блокировке всех роботов Яндекса, включая робота РСЯ.

Для того чтобы удостовериться, что робот РСЯ обходит ваш сайт, необходимо добавить в начало файла robots.txt в корневой папке следующую запись:

User-Agent: YandexDirect
Disallow:

Проверка доступности сайта для робота РСЯ

С помощью инструмента Проверка доступности страниц сайта для робота Рекламной сети партнеры РСЯ могут проверить доступность страниц своего сайта для индексации роботом YandexDirect. Проверка производится на основании параметров, прописанных в файле robots.txt.

Инструмент позволяет узнать, не были ли страницы сайта по неосторожности закрыты для индексации из-за ошибок в файле robots.txt (например, если нужно было закрыть сайт от поискового робота и оставить открытым только для рекламного, но правило было прописано неверно).

Работа инструмента устроена просто. В интерфейсе необходимо ввести адрес или список адресов сайта для проверки. Если окажется, что они запрещены для индексирования рекламным роботом, система выведет соответствующее сообщение, а в некоторых случаях предложит способы решения проблемы.

Скорость обхода сайтов роботом РСЯ

Вы можете управлять скоростью обхода своего сайта роботом РСЯ при помощи директивы Crawl-delay в файле robots.txt.

Директива Crawl-delay устанавливает продолжительность паузы, которую делает робот между загрузками страниц сайта. Если файл robots.txt или директива в нем отсутствует, минимальная пауза составляет 2 секунды. Такая продолжительность паузы обеспечивает оптимальную скорость индексации для большинства сайтов и не создает чрезмерной нагрузки на серверы и хостинг. Например, она позволяет роботу РСЯ полностью проиндексировать сайт, состоящий из нескольких тысяч страниц, в течение суток.

Совет. Крупным сайтам мы рекомендуем устанавливать значение Crawl-delay менее двух секунд. Устанавливать значение Crawl-delay более двух секунд имеет смысл, если робот РСЯ создает ощутимую нагрузку на сайт и мешает его нормальной работе.

Помните, что слишком высокое значение Сrawl-delay может понизить качество рекламы и, соответственно, снизить доход вашего сайта.

О трагическом контексте

Яндекс считает неэтичным показывать рекламу на страницах с трагическим содержанием. С помощью специального фильтра в тексте страниц производится поиск фраз, указывающих на трагическое содержание, и эти страницы могут быть помечены признаком трагичности. При этом для лент новостей сайтов категории «СМИ» предусмотрена возможность игнорировать признак трагичности.