Статистика обхода

Индексирующий робот Яндекса регулярно обходит страницы сайтов и загружает их в поисковую базу. При этом робот может загрузить не все нужные вам страницы из-за их недоступности.

Яндекс.Вебмастер позволяет узнать, какие страницы вашего сайта обходит робот и выявить адреса страниц, которые робот не смог загрузить из-за недоступности сервера, на котором находится сайт, или из-за ошибок в содержимом самих страниц.

Например, можно выяснить, что в поисковой базе хранится большое количество уже удаленных с сайта страниц, о которых помнит робот, и получить их URL. Постоянное обращение робота к удаленным страницам замедляет обход полезных страниц. Следовательно полезный контент может долгое время не появляться в результатах поиска. В этом случае рекомендуется запретить посещение ненужных страниц, например, в файле robots.txt.

Данные о страницах доступны в разделе Статистика обхода Яндекс.Вебмастера. Информация обновляется ежедневно в течение шести часов с момента посещения страниц роботом.

По умолчанию сервис предоставляет данные по сайту в целом. Чтобы просмотреть информацию о конкретном разделе, выберите его из списка в поле с адресом сайта. Доступные разделы соответствуют структуре сайта, известной Яндексу (кроме разделов, добавленных вручную).

Информацию о страницах можно выгрузить в формате XLS или CSV с учетом примененных фильтров.

Примечание. Данные доступны начиная с 20 февраля 2017 г.

Динамика состояния страниц

Информация о страницах представлена следующим образом:

  • Новые и изменившиеся — количество страниц, которые робот обошел впервые, и страниц, статус которых изменился после очередного обращения к ним робота.
  • История обхода — количество страниц, которые робот обошел, с учетом кода ответа сервера.

Изменения страниц в поисковой базе

Вебмастер показывает следующие сведения о страницах:

  • дата последнего посещения страницы роботом (дата обхода);
  • адрес страницы относительно корневого каталога сайта;
  • код ответа сервера, полученный роботом при посещении страницы.

Основываясь на этой информации, можно узнать, как часто робот обходит страницы сайта, а также понять, какие страницы только появились в базе робота, а к каким робот обращается повторно.

Появление страницы в поисковой базе

Для страницы, которую робот обошел впервые, в столбце Было отображается статус N/a, а в столбце Стало — ответ сервера (например, 200 OK).

После успешной загрузки в поисковую базу страница может появиться в результатах поиска с ближайшими обновлениями поисковой базы. Информация о ней становится доступна в разделе Страницы в поиске.

Повторное обращение робота к странице

Если робот ранее обошел страницу, то при повторном обращении к ней статус может измениться: в столбце Было отображается ответ сервера, полученный во время предыдущего посещения робота, в столбце Стало — ответ сервера, полученный при последнем обращении.

Например, участвующая в поиске страница стала недоступна для робота. В этом случае она исключается из поиска. Через некоторое время после этого ее можно увидеть в списке исключенных в разделе Страницы в поиске.

Удаленная из поиска страница еще может оставаться в поисковой базе для проверки ее доступности. Как правило, робот продолжает обращаться к такой странице, пока на нее ведут ссылки или она не закрыта в файле robots.txt.

Чтобы просмотреть изменения, установите переключатель в положение Последние изменения. В результате отобразится до 50 000 изменений.

Список страниц, которые обошел робот

Вы можете увидеть список страниц сайта, которые обошел робот, и следующую информацию о них:

  • дата последнего посещения страницы роботом (дата обхода);
  • адрес страницы относительно корневого каталога сайта;
  • код ответа сервера при последней загрузке страницы роботом.

Чтобы увидеть список страниц, установите переключатель в положение Все страницы. Список может содержать до 50 000 страниц сайта.

Фильтрация данных

Информацию о страницах и изменениях в поисковой базе робота можно фильтровать по всем представленным параметрам (дате обхода, URL страницы, коду ответа сервера) с помощью значка . Ниже описано несколько примеров:

По ответу сервера

Можно составить список страниц, которые робот обошел, но не смог загрузить из-за ответа сервера 404 Not Found.

При этом можно выявить новые страницы, недоступные роботу, установив переключатель в положение Последние изменения:

А также — получить общий список страниц, недоступных роботу, установив переключатель в положение Все страницы:

По URL с указанием определенного фрагмента адреса

Можно составить список страниц, адрес которых содержит определенный фрагмент. Для этого выберите из списка значение Содержит и в поле укажите нужное значение.

По URL с указанием специальных символов

Специальные символы позволяют задавать не строгое соответствие строки, а ее начало, подстроку и более сложные условия с применением регулярных выражений. Чтобы использовать их, выберите из списка значение Условия, а само условие введите в поле. Можно добавить несколько условий — каждое из них должно начинаться с новой строки.

Для условий доступны правила:

  • выполнять любое из условий (соответствует оператору «ИЛИ»);
  • выполнять все условия (соответствует оператору «И»).
Символы, используемые для фильтрации
Символ Описание Пример
* Соответствует любому количеству любых символов

Отобразить данные по всем страницам, которые начинаются с https://example.com/tariff/, включая указанную страницу: /tariff/*

Использование символа *

Символ * может быть полезен при поиске URL, которые содержат два определенных элемента или более.

Например, можно найти новости или анонсы за определенный год: /news/*/2017/.

@ Выбранные данные содержат указанную строку (но не обязательно строго соответствуют) Отобразить данные по всем страницам, URL которых содержит указанную строку: @tariff
~ Условие является регулярным выражением Отобразить данные по страницам, URL которых удовлетворяет регулярному выражению. Например, можно выбрать все страницы, в адресе которых есть одно или несколько упоминаний: ~table|sofa|bed
! Отрицание условия Исключить данные по страницам, URL которых начинается со строки https://example.com/tariff/: !/tariff/*

При использовании символов не учитывается регистр.

Символы @, !, ~ могут использоваться только в начале строки, для них доступны следующие сочетания:

Оператор Пример
!@ Исключить данные по страницам, URL которых содержит tariff: !@tariff
!~ Исключить данные по страницам, URL которых удовлетворяет условиям регулярного выражения