Выгрузка архива всех страниц сайта

Возвращает архив c информацией о страницах, которые были добавлены в Sitemap.

Скачать архив можно в Вебмастере на странице Индексирование → Все страницы.
Чтобы скачать архив:

  1. С помощью POST-запроса начните формирование архива.
    В зависимости от размера архива процесс может занять от 10 секунд до 3 минут. В результате вы получите task_id— уникальный идентификатор задачи по формированию архива.

  2. C помощью GET-запроса проверьте статус задачи.

Форматы запросов

POST https://api.webmaster.yandex.net/v4/user/{user-id}/hosts/{host-id}/indexing/archive/

user-id

Тип: int64. ID пользователя. Необходим для вызова любых ресурсов API Яндекс Вебмастера. Чтобы получить его, используйте метод GET /v4/user.

host-id

Тип: host id (string). ID сайта. Чтобы получить его, используйте метод GET /v4/user/{user‑id}/hosts.

GET https://api.webmaster.yandex.net/v4/user/{user-id}/hosts/{host-id}/indexing/archive/{task-id}

user-id

Тип: int64. ID пользователя. Необходим для вызова любых ресурсов API Яндекс Вебмастера. Чтобы получить его, используйте метод GET /v4/user.

host-id

Тип: host id (string). ID сайта. Чтобы получить его, используйте метод GET /v4/user/{user‑id}/hosts.

task-id

Тип: UUID. ID задачи на формирование архива.

Форматы ответов

JSON

{
    "task_id": "c7fe80c0-36e3-11e6-8b2d-df96aa592c0a"
}

Параметр

Обязательный

Тип

Описание

task_id

Да

string

Идентификатор задачи формирования архива.

JSON

{
    "task_id": "c7fe80c0-36e3-11e6-8b2d-df96aa592c0a",
    "state": "DONE",
    "download_url": "https://storage.mds.yandex.net/..."
}

Параметр

Обязательный

Тип

Описание

task_id

Да

string

Идентификатор задачи формирования архива.

state

Да

string

Cтатус задачи. Возможные значения:

  • IN_PROGRESS — архив формируется. Периодически отправляйте GET-запросы, чтобы следить за выполнением задачи.
  • DONE — архив сформирован. В поле download_url появится ссылка для скачивания.
  • FAILED — задача не выполнена по какой-либо причине.

download_url

Да

string

URL-адрес для скачивания архива, если задача имеет статус DONE.

Коды ответа

Чтобы посмотреть структуру ответа подробнее, нажмите на причину.

Код

Причина

Описание

403

INVALID_USER_ID

ID пользователя, выдавшего токен, отличается от указанного в запросе. В примерах ниже {user_id} указан правильный uid владельца OAuth-токена.

{
  "error_code": "INVALID_USER_ID",
  "available_user_id": 1,
  "error_message": "Invalid user id. {user_id} should be used."
}
<Data>
    <error_code>INVALID_USER_ID</error_code>
    <available_user_id>1</available_user_id>
    <error_message>Invalid user id. {user_id} should be used.</error_message>
</Data>

404

HOST_NOT_VERIFIED

Не подтверждены права на управление сайтом.

{
  "error_code": "HOST_NOT_VERIFIED",
  "host_id": "http:ya.ru:80",
  "error_message": "some string"
}
<Data>
  <error_code>HOST_NOT_VERIFIED</error_code>  
  <host_id>http:ya.ru:80</host_id>
  <error_message>some string</error_message>
</Data>

Код

Причина

Описание

403

INVALID_USER_ID

ID пользователя, выдавшего токен, отличается от указанного в запросе. В примерах ниже {user_id} указан правильный uid владельца OAuth-токена.

{
  "error_code": "INVALID_USER_ID",
  "available_user_id": 1,
  "error_message": "Invalid user id. {user_id} should be used."
}
<Data>
    <error_code>INVALID_USER_ID</error_code>
    <available_user_id>1</available_user_id>
    <error_message>Invalid user id. {user_id} should be used.</error_message>
</Data>

404

HOST_NOT_VERIFIED

Не подтверждены права на управление сайтом.

{
  "error_code": "HOST_NOT_VERIFIED",
  "host_id": "http:ya.ru:80",
  "error_message": "some string"
}
<Data>
  <error_code>HOST_NOT_VERIFIED</error_code>  
  <host_id>http:ya.ru:80</host_id>
  <error_message>some string</error_message>
</Data>

404

TASK_NOT_FOUND

Не найдена задача с указанным ID.

{
  "error_code": "TASK_NOT_FOUND",
  "error_message": "some string"
}
<Data>
  <error_code>TASK_NOT_FOUND</error_code>  
  <error_message>some string</error_message>
</Data>

Узнайте больше

Тип: int64. ID пользователя. Необходим для вызова любых ресурсов API Яндекс Вебмастера. Чтобы получить его, используйте метод GET /v4/user.

Тип: host id (string). ID сайта. Чтобы получить его, используйте метод GET /v4/user/{user‑id}/hosts.

Обязательный параметр

Смещение в списке. Минимальное значение — 0. Значение по умолчанию: 0.

Количество записей (1-100). Значение по умолчанию: 10.

Описание

Код ошибки.

Описание

Сообщение об ошибке.

Описание

Значение.

Описание

Поле.

Описание

ID запрошенного сайта.

Описание

ID сайта.

Описание

Признак подтверждения сайта.

Описание

ID файла Sitemap.

Описание

Список поддерживаемых типов контента.

Описание

Лимит на количество добавленных сайтов.

Описание

Лимит количества фидов.

Описание

Лимит количества добавленных фидов.

Описание

ID пользователя, от имени которого разрешен доступ.

Описание

Дата и время, до которого адрес доступен для создания задачи.

Описание

Список поддерживаемых типов контента.

Описание

Список поддерживаемых типов кодировки.

Описание

Максимальная длина.

Описание

Минимальная длина.

Описание

Доступное количество запросов в сутки.

Индикатор

Описание

INDEXING_HTTP_CODE

Изменился HTTP-кода ответа, который получил робот при обходе страницы.

SEARCH_STATUS

Изменился статус страницы в поиске (добавлена или удалена).

TITLE

Изменился заголовок страницы.

DESCRIPTION

Изменилось содержимое метатега Description.

Индикатор

Описание

HTTP_2XX

HTTP_3XX

HTTP_4XX

HTTP_5XX

Подробнее о статусах см. в Справке.

OTHER

Неподдерживаемый HTTP-код, ошибка соединения и др.

Индикатор

Описание

NOTHING_FOUND

Роботу неизвестно о странице или она длительное время была недоступна. Отправьте страницу на переобход.

HOST_ERROR

При обращении к сайту роботу не удалось установить соединение с сервером. Проверьте ответ сервера, убедитесь в отсутствии блокировки робота Яндекса на стороне провайдера. Сайт начнет индексироваться автоматически, если станет доступным для робота. О User agent роботов см. в Справке.

REDIRECT_NOTSEARCHABLE

Страница осуществляет перенаправление, при котором индексируется его цель (RedirectTarget). Проверьте индексирование страницы, на которую выполняется редирект.

HTTP_ERROR

При обращении к странице возникла ошибка «HTTP-ошибка». Проверьте ответ сервера. Если проблема актуальна, обратитесь к администратору своего сайта или сервера. Если страница уже доступна, отправьте ее на переобход.

NOT_CANONICAL

Страница проиндексирована по каноническому адресу, который был указан в атрибуте rel="canonical" в ее исходном коде. Исправьте или удалите атрибут, если он указан некорректно. Робот отследит изменения автоматически.

NOT_MAIN_MIRROR

Страница относится к неглавному адресу сайта, поэтому была исключена из поиска.

PARSER_ERROR

При обращении к странице роботу не удалось получить ее содержимое. Проверьте ответ сервера или наличие запрещающих HTML-элементов. Если проблема актуальна, обратитесь к администратору своего сайта или сервера. Если страница уже доступна, отправьте ее на переобход.

ROBOTS_HOST_ERROR

Индексирование сайта запрещено в файле robots.txt. Робот автоматически начнет посещать страницу, когда сайт станет доступен для индексирования.

ROBOTS_URL_ERROR

Индексирование страницы запрещено в robots.txt. Робот автоматически начнет посещать страницу, когда она станет доступной для индексирования.

DUPLICATE

Страница дублирует уже представленную в поиске страницу сайта. Подробнее см. в Справке.

LOW_QUALITY

Страница отсутствует в поиске в результате работы алгоритма. Если алгоритм сочтет страницу достаточно релевантной запросам пользователей, она появится в поиске автоматически.

CLEAN_PARAMS

Страница была исключена из поиска в результате обработки роботом директивы Clean-param. Чтобы страница индексировалась, измените robots.txt.

NO_INDEX

Страница исключена из-за метатега robots со значением noindex.

OTHER

У робота нет актуальных данных для страницы.

Проверьте ответ сервера или наличие запрещающих HTML-элементов.

Если страница недоступна для робота, обратитесь к администратору своего сайта или сервера. Если страница уже доступна, отправьте ее на переобход.