Блог Яндекса для вебмастеров

Выгрузка данных из «Страниц в поиске»

22 февраля, 17:19

Данные из инструмента «Страницы в поиске» теперь доступны для скачивания. 
Выгрузка доступна из обоих разделов инструмента. В данных из раздела «Все страницы» содержится информация о всех страницах сайта, известных поиску: их URL, дата последнего посещения страницы роботом и title.

Таблица с данными из раздела «Последние изменения» включает в себя информацию только по страницам, статус которых был изменен — например, они были добавлены в поиск или, наоборот, выпали из него. При этом информации по каждой такой изменившейся странице представлено больше, чем в предыдущей выгрузке, а именно: 

updateDate — дата обновления поисковой базы;
url — адрес страницы;
httpCode — HTTP-код, полученный роботом во время последнего обхода;
status — статус страницы;
target — адрес страницы, на которую происходит перенаправление со страницы, указанной в поле url, или страница, дублем которой является текущая;
lastAccess — дата последнего посещения страницы роботом;
title — заголовок страницы (HTML-элемент title);
event — действие, произведенное со страницей (добавление или исключение из поиска).

Теперь решать такие задачи, как найти все исключенные или только что добавленные в поиск страницы, страницы с конкретным HTTP-ответом, дубли или все страницы без title, стало еще проще. 

Выгрузка доступна в двух форматах – CSV и XLS, ссылка на скачивание находится внизу страницы инструмента.

Подробнее о статусах можно узнать в нашей Помощи

Теперь анализировать данные
Становится еще удоб
нее
Команда Яндекс Вебмастера

113 комментариев
Подписаться на комментарии к посту
Отличная новость! Спасибо!
Ура, спасибо!
Ещё бы апи было для этих данных, совсем классно было бы.
Комментарий удалён
Попов Дмитрий
22 февраля, 18:26
credo120,
Рекомендую посмотреть на комментарии выше и ниже, и задуматься над своим мировозрением.
Обновлено 22 февраля, 18:26
Попов Дмитрий,
Отличный ответ, хотя он вряд ли поймет ))
Комментарий удалён
Попов Дмитрий
25 февраля, 19:14
Yegoryev,
Я отвечал на конкретную фразу про "Бесполезная фича ТЗ ради ТЗ". И посмотреть по сторонам можно что бы увидеть, что это функция которую люди ждали и хотели. Такие комментарии здесь потому, что в вебмастере последнее время выкатывается очень много однозначно полезных фич, от которых есть объективная польза (да, нескромно, но это так). 


На остальное, позвольте не буду отвечать - т.к. это либо вопросы субъективные (как правильно рассказывать о фичах), либо яндекс.вебмастера напрямую не касаются
Попов Дмитрий,
понятно, а то уже начал подозревать, что вам комментарии пишут боты какие-то, у которых лексикон из пяти слов и их комбинаций
Yegoryev,
Гораздо интереснее, зачем домен в выдаче теперь жирным шрифтом выделяется, но Яндекс про это молчит. - разбираются чему же обучился Матрикснет) 
Обновлено 26 февраля, 20:03
Yegoryev,
, они сделали за последний год больше, чем за 8 лет до этого. Не гони на них, пусть продолжают в том же духе. Щас обидятся и опять болото будет. Вон даже выгрузку внешних ссылок починили.
firstlena.pershina
27 февраля, 00:29
Часть сообщений в этом диалоге были забанены модератором за неуважение к собеседнику и мат.  
webmaster.popov
1 марта, 17:36
Попов Дмитрий,
 Скажите , тёзка.
Ваш Питерский офис отвечает за панель вм?

Прекрасно.
Трансцендентально!
Вот это хорошо, вот это приятненько -) 
Ещё был API к возможности! API что-то совсем медленно развивается по Вебмастеру.
Обновлено 22 февраля, 17:58
firstlena.pershina
22 февраля, 19:03
kakBacTam,
Не все сразу, но все делается :)
Вот просили выгрузки - сделали выгрузки. Про API тоже помним! 
firstlena.pershina,
да, в целом то спасибо =) 
Обновлено 22 февраля, 21:19
firstlena.pershina,
тоже APIшечку очень хочется, но не только для этой фичи =)
Как раз к праздникам интересное обновление выкатили.
firstlena.pershina
22 февраля, 19:03
антон,
Старались! :) 
firstlena.pershina,
вы кнопку приделайте "Сказать спасибо", большучую такую, зеленую - кто нажмет, у того сразу 10 яндекс-рублей списывается
firstlena.pershina
27 февраля, 00:30
Yegoryev,
на пиццу нашим разработчикам ? :)
антон,
так себе. У меня страницы выпадают, а потом залетают опять. уже начал дописывать , вникая глубже в суть вопроса. Теперь яндекс лучше ранжирует и не выбрасывает странички с хорошим текстом.
Обновлено 31 марта, 20:50
Добавили бы функцию по удалению ссылок  - конкуренты пытаются топить при помощи вот таких сайтов - http://novosti-aes-paksh.ru/index.php?bzm=24097.
Вот такое Г...НО в вебмастере показывает. Позиции сразу в минус пошли после индексации (предположение, а может и истина). Платон, как быть?
alex-popov12345,
 а может стоит настроить нормально ответ на своем сайте? И вообще вы скинули явно какой то дор или агс.
Обновлено 22 февраля, 18:10
ramsus2008,
 ну типо сайты подобного характера размещают самовольно ссылку на его сайт не СДЛ. Человек за это спрашивал
ramsus2008,
Причем тут ответ (с ответом все гуд, метрика стоит, опустилась только эта страница).
Гугл даже не проиндексировал этот ГВ (смотрел последние ссылки за пол года), а Яндекс почему-то закинул в индекс и сразу пошел минус.
Позиции стояли 1-ые, а сейчас где -1, или -2, по самому крутому  ВЧ в -4 позиции.
Конкуренты нихера не делали (я постоянно мониторю). Думаю дело именно в этой ссылке, так как, страница куда он ссылается вышла в топ по ПФ.
В гугле она занимает все ВЧ и НЧ и д.р.
Или Яндекс начал опять учитывать ссылки.
На форумах все мастера начали говорить о росте после ссылочного апдейта.
trustttt,
Кто-то же делает такой ГС, топят всех, но ДОМ РУ у них наверно ПЕРВАЯ ЦЕЛЬ.
firstlena.pershina
22 февраля, 19:06
alex-popov12345,
Мы этот вопрос комментировали много раз - мы научились хорошо различать подобные ситуации,  и в подавляющем большинстве случае очень хорошо понимаем историю возникновения тех ил иных ссылок. Так что если это правда "конкуренты", можете лишь печалиться, что они столь странным образом решили израсходовать свой бюджет. 
НашаБригада
23 февраля, 16:57
firstlena.pershina,
Здравствуйте, скажите пожалуйста это точно не будут проблемы с нашими сайтами если конкуренты ссылаються на наши сайты? А то, каждый день думаю и очень переживаю чтобы не попал под санкции. Спасибо
lesnichenko.pavel
26 февраля, 12:50
firstlena.pershina,
Уточните пожалуйста, правильно ли я понимаю, что ссылки с некачественных сайтов игнорируются яндексом? Или они учитываются и могут негативно повлиять на ранжирование сайта?
firstlena.pershina
27 февраля, 00:09
НашаБригада,
Для большей уверенности вы можете еще в поддержку Вебмастера об этом написать, но не думаю, что ответ тут будет сильно от моего отличаться. 
firstlena.pershina
27 февраля, 00:37
lesnichenko.pavel,
Вот тут про это очень хорошо рассказано: https://events.yandex.ru/lib/talks/3093/ 
НашаБригада
27 февраля, 02:25
firstlena.pershina,
Я не сомнивался, даже очень благодарен что Вы  это запретили. Спасибо.
Обновлено 27 февраля, 02:25
firstlena.pershina,
 скажите, а как яндекс относится к таким "сайтам":
http://kamelot-z.ru/12/09/dlya-chego-nuzhen-gaz-na-svarochnom-poluavtomate-awelco-easycraft-100/
вижу и тиц у него есть и его ссылки засчитаны яндексом в вебмастере.
и таких мусорок с десяток нашел... может, вы создадите тему, куда такое можно складывать, а ваши ребята будут отсеивать зерна от плевел.
firstlena.pershina
5 марта, 19:50
Alex,
Мы любим, когда о подобных подозрительных сайтах нам сообщают через вот такую форму:  https://yandex.ru/support/abuse/troubleshooting/search/main.html
Но качество конкретных ресурсов мы не комментируем. 
А ещё актуальная проблема - это гомнокаталоги которые собирают информацию о сайте, и размещают у себя без нашего ведома, плюс на страницах такого типа может находится контент порнографического содержания или новости аля "Пугачёва не старее потому что..."


Итог: было бы неплохо сделать инструмент удаления ссылок (чтобы яндекс не брал в учёт ссылки ), с того сайта который по моему мнению не является достойным для описания нашего ресурса!
trustttt,
Не надо изобретать велосипед. Надо сделать, как у западного аналога, где ГСссылки просто не учитываются. Тогда не придется удалять весь хлам из панели ВМ.
seoal,
каждый случай уникален. Идеально алгоритма нет, поэтому в каких-то вопросах должен помогать человек. Почему-бы и нет!?
trustttt,
Полностью солидарен с Вами!
Здорово, очень полезный инструмент, постепенно кабинет вебмастера все больше полезной информации дает. Раньше все это скриптами надо был вытягивать, неточности и прочее такое. Дашборд удобный тоже. Спасибо
Ярослав Павлюк
22 февраля, 19:28
Очень приятная новость,СПАСИБО.
Человеческое спасибо!
chiptuningcar,
прям заставили задуматься: какие еще варианты спасиба бывают, кроме человеческого
ну, видимо, такие: "Лижу вам руки!"
Рамазан Миндубаев
22 февраля, 20:36
Просили всем отделом, видимо услышали, спасибо!
главное - веровать в Яндекс, он помогает каждому, кто верит и у кого он в душе
Ну наконец-то! Молодцы, ура!
Лучи добра разработчикам за новую фичу! =)
Розовый бентли!
Каждому!
firstlena.pershina
26 февраля, 23:54
direct.unibus,
Розовый бентли не обещаем :) Но добрые слова передам! 
bushinaleksander
23 февраля, 09:22
Респект!
О, Спасибо!
О да!
Хорошая новость, спасибо!
Спасибо большое! Радует, что скорость прикрутки возможности выгрузок сократилась с года, до нескольких месяцев с последней вебмастерской :)
firstlena.pershina
27 февраля, 00:00
en-es,
Мы же обещали :) 
Иван Кантимир
23 февраля, 15:24
Спасибо!...отличная новость
НашаБригада
23 февраля, 16:53
Спасибо большое, очень круто
Приветствую! А можно сделать функцию, в разделе "Удалить URL" возможность удалять не по одной УРЛ а допустим загрузить файл с УРЛ которые требуется удалить. А то дублеры и не существующие устал удалять по одной странице, тем более если их около ста, было бы очень удобно. Спасибо!
firstlena.pershina
27 февраля, 00:10
auto-vikup2016,
Задача понятно, в планах такого пока нет, но посмотрим, что тут можно сделать. 
firstlena.pershina,
все просто же, сделайте в API возможность удалять урл, а там кому надо уже понаприкручивают своих приложух как им удобно будет
Админ "Уроки GIMP"
23 февраля, 17:18
Попробовал выгрузить XLS. Всё отлично, всё видно, всё понятно.


Спасибо за старания. Ваш труд не напрасен!
труд делает их свободными
Админ "Уроки GIMP"
25 февраля, 20:04
Yegoryev,
 глубокомысленность ваша восхитила меня :-)
Замечательно, спасибо!
AleksandrIvanov3
24 февраля, 00:36
Скажите, а как теперь посмотреть  какие страницы отдают 301? 
Попов Дмитрий
24 февраля, 00:44
AleksandrIvanov3,
старая выгрузка в разделе "статистика обхода", которая содержит информацию о всех известных поиску страницах по прежнему доступна
AleksandrIvanov3
24 февраля, 01:11
Попов Дмитрий,
да но там указано только количество страниц с разными http кодами, а меня интересуют конкретно страницы например которые отдают код 301. Делаю выгрузку там ничего такого нет. Спасибо.
Попов Дмитрий
24 февраля, 01:31
AleksandrIvanov3,
не понимаю о чем вы. Раздел "Индексирование - статистика обхода". Снизу страницы кнопка "архив от 20.02.2017". В этом архиве все известные поиску страницы, в том числе с указанием кода
Это конечно хорошо, но страницы то вылетают, то залетают обратно, причем без заголовков, хотя они присутствуют, и до этого были. Это изрядно бесит, так как настроена дата последнего редактирования в микро-разметки, и статья уникальная пишется с головы, а она например 28.01.2017 залетает в индекс в этот же день вылетает, после снова залетает , далее не редактировалась и 16.02.2017 например вылетает из индекса с этой ужасающей надписью" Недостаточно качественная ..." хотя последнее редактирование статьи 27.01.2017 а день добавления. О чем говорится дополнительно в sitemap.xml в разделе lastChange.... Странно это всё не правда ли ?
супер =)
супер-супер-супер! само совершенство! красавчики! шикарно, я люблю их! они еще дадут прикурить! грандиозно! супер, супер!
Я не знаю, может не в тему, но если бы у меня был свой поисковик, то он бы приоритетно индексировал страницы, которые правятся. Новые льют и перезаливают ведрами и лоханками, а вот если правиться старая страница - это всегда какой-то особый фактор, никто с больной страницей работать не будет. Для новостей это конечно не подходит, а вот для "вечнозеленного контента" в самый раз.
Отличная новость! Спасибо!!!!
Комментарий удалён
firstlena.pershina
27 февраля, 00:32
AllCanHappen,
И эта попытка снова засчитана :) 
alex-popov12345
2 марта, 10:08
firstlena.pershina,
Сегодняшний адейт выдачи опять, как в Ноябре, поверг в легкий шок! Спасибо Яндекс, что не даете скучать!
Обновлено 2 марта, 10:08
По запросу host:сайт.рф показывает что 0 страниц в индексе и так для всех доменов рф, это будут чинить или так всегда теперь будет для доменов рф?
firstlena.pershina
27 февраля, 00:41
siemensrars,
попробуйте использовать site:
КРУТО!!!
Подскажите, пожалуйста, где найти список страниц 404 ошибке. Ранее был в разделе исключенные страницы - теперь там просто график. Спасибо
firstlena.pershina
27 февраля, 20:11
astroplastica,
Эту информацию можно получить несколькими путями. Наиболее быстрый и правильный - статистика обхода - загруженные страницы. Далее выгрузка страниц с нужным ответом. 
Оч крутая штука, выгрузил и зарылся в списке. Нашел кучу бесполезных страниц, которые надо убрать из индекса :)


Только подскажите, пожалуйста, где найти описания статусов. В частности, что такое BAD_QUALITY? Заранее спасибо за ответ.
firstlena.pershina
27 февраля, 20:14
da-ya,
В помощи: https://yandex.ru/support/webmaster/service/searchable.xml#download-file
BAD_QUALITY - первое из определений в таблице. 


firstlena.pershina,
Спасибо! Очень полезно, будем пользоваться ))
avtomir-webmaster
27 февраля, 18:25
Спасибо!
С ума сойти! Где теперь находятся исключенные страницы, т.е я в кабинете вижу что исключенные страницы есть, но я не могу посмотреть что за страницы, все перерыл ни как не найду!
firstlena.pershina
28 февраля, 14:41
karat3054,
Так в той же выгрузке можно - там статус под это специальный. 
firstlena.pershina,
Спасибо, большое )
Большое спасибо. Теперь при  продвижении сайта наши новые клиенты могут получить отчет о страницах попавших в поиск.
Обновлено 28 февраля, 17:15
Круто, спасибо ) !
Было бы здорово, если можно в эту таблицу выгружать так же дескрипшен, кейвордс и Н1. 
На данном этапе вынужден просматривать это вручную, что не особо удобно. Спасибо Вам за работу, ценю Ваш профессионализм.
info@dvbmarket.ru
5 марта, 01:21
Ortoway,
однозначно плюсуем
Очень полезная функция! Большое спасибо!
nosferatu-game
3 марта, 15:19
Успел уже оценить для сайта про поисковые системы. Хотя и занят сейчас его переносом на иную cms.
Обновлено 3 марта, 15:19
Видимо мне повезло больше всех, я попросил об этом совсем недавно и как будто на мою личную просьбу такой подарок))) Спасибо! 
firstlena.pershina
5 марта, 19:45
vlburnos,
Иногда очень сложно отвечать на вопросы, зная, что скоро будет лучший ответ на ваш вопрос :) 
Artur-garik2007
9 марта, 11:40
Хорошая идея. А я думаю почему мои страницы попадают в индекс потом теряются. Оказывается кто-то хочет на пакостить и к параметрам моего URL прикрепляются левые тексты и коды. И вот вижу что такие страницы Yandex добавил в индекс (/best_hotel_info_cena.php?id_hotel=275%F1) а оригинальная страница (/best_hotel_info_cena.php?id_hotel=275). Так робот их в неделю по 50 штук находит , индексирует, а потом удаляет как дубликат. Скажете пожалуйста, что  лучше сделать при получении кривой url? Просто везде по разному пишут.   1.Редирект на оригинальную стрницу с возвратом 200. 2. Редирект на стрницу ошибки 404. 3.<link rel="canonical" href="..../best_hotel_info_cena.php?id_hotel=275"> в заголовке. Я думаю такой вопрос не только у меня. Спасибо.
firstlena.pershina
9 марта, 14:55
Artur-garik2007,
В вашем случае - атрибут rel="canonical" будет самое уместное и простое в настройке.
Artur-garik2007
9 марта, 19:27
firstlena.pershina,
Спасибо большое за ответ, не пойму откуда такие ссылки в индексе.
 Еще такой вопрос.
У вас в сервисе под ссылкой на эту страницу написано "Страница перенаправляет робота на  "мой-URL". Проверьте индексирование цели Редиректа." - Это как ошибка считается? 
Я сделал так: при переходе на страницу, которая была удалена, я поставил в заголовке  простой Редирект на раздел выше.  Скажите пожалуйста, лучше так и оставить, или если страница удалена надо делать Редирект на страницу 404? Чтобы не было проблем с индексацией.
Просто благодаря этому новому сервису много что узнал).
Спасибо. Буду ждать вашего квалифицированного ответа если он конечно уместен)
firstlena.pershina
9 марта, 21:13
Artur-garik2007,
Вы знаете, боюсь через блог на такие вопросы не очень удобно отвечать - нет инструментов для анализа, да и сайт я не вижу. Можно вас попросить нам в поддержку их продублировать? 
Artur-garik2007
9 марта, 21:50
firstlena.pershina,
Имеете введу через форму обратной связи -  https://yandex.ru/support/blog/index.html?
Artur-garik2007
9 марта, 21:57
firstlena.pershina,


Написал, но на всякий случай и сюда продублирую. 
/opisanie_nomera.php?id_hotel=193&id_room=615 (Редирект)
Страница перенаправляет робота на http://gorod-kurort-anapa.ru/best_hotel_info_cena.php?id_hotel=193. Проверьте индексирование цели редиректа.

firstlena.pershina
10 марта, 14:11
Artur-garik2007,
Вообще скорее поддержку Вебмастера - это самое релевантное место для проверки таких результатов. Ссылка внизу страницы сервиса. 
Artur-garik2007
10 марта, 14:16
firstlena.pershina,
Все я уже написал и все объяснили. Спасибо)
firstlena.pershina
10 марта, 14:30
Artur-garik2007,
Отлично! Простите, что через блог на такие вопросы не отвечаем - но правда инструментов не хватает. 
Artur-garik2007
10 марта, 14:40
firstlena.pershina,
Понимаю, все хорошо)
Очень странно работает выгрузка страниц в поиске. Выгружает в 2 раза меньше страниц, чем в индексе.
firstlena.pershina
14 марта, 12:51
eldarion4ik,
А страницы в поиске вы через что смотрите? 
firstlena.pershina,
Статистика обхода->Страницы в поиске.  Выгружаю через Страницы в поиске->Все страницы и в итоге получается различие в 2 раза.
firstlena.pershina
14 марта, 14:57
eldarion4ik,
А можно сайт, для которого так? 
"Страниц в индексе" вы через что смотрите, с чем сравниваете выгрузку из инструмента. 
firstlena.pershina,
А есть возможность написать в тех. поддержку вебмастера, чтобы я мог скриншоты предоставить? Не нашел такой возможности в обратной связи.
firstlena.pershina
15 марта, 13:21
eldarion4ik,
Да, конечно. На самом деле даже лучше в техподдержку, так как могут еще данные о сайте потребоваться.
Да, форма обратной связи есть при переходе по соответствующей ссылке внизу Вебмастера, но там небольшой квест - нужно уточнить проблему несколько раз, чтобы она появилась.