Блог Яндекса для вебмастеров

Я.Вебмастер: настройте показ ошибок обхода

4 марта 2008, 20:33

При обходе практически каждого сайта часть страниц не индексируется роботом. Причины могут быть разными: ошибки соединения, редиректы, запрет на обход в файле robots.txt и т.п.

Во многих случаях нельзя однозначно определить, хотел вебмастер, чтобы страница не попала в индекс или нет. Поэтому в Яндекс.Вебмастере мы предупреждаем обо всех случаях, когда страница не загружается роботом. Нередко это приводит к тому, что реальные ошибки обхода, на которые нужно обратить внимание, тонут в огромном числе подобных предупреждений.

Теперь можно самостоятельно задавать, как должны показываться разные типы предупреждений, например:

  • ошибка (показывать красным цветом)
  • замечание (возможно ошибка, показывать жёлтым цветом)
  • информация (не ошибка, показывать синим цветом)
  • не показывать (не ошибка, игнорировать)

Чтобы воспользоваться функцией, зайдите в "Настройки" (ссылка в верхней части страницы сервиса).
 
И пусть робот найдёт всё!

 
Разработчики сервиса Я.Вебмастер
25 комментариев
Подписаться на комментарии к посту
И пусть вас ласково встретит Магадан ... Подкрашивать по разному ошибки это хорошо, но попрежнему проблема в том что для большого сайта, "нормальных" , "интересных" ошибок просто нет, а есть только robots.txt и те регулярно пропадают. Очень не стабильно работает отображение и сбор ошибок.
если есть возможность, уберите обещание, что робот проиндексирует сайт, если права на сайт подтверждены. Это вводит в заблуждение.
Объясните, пожалуйста, что вы имеете в виду?
исключительно по собственному опыту: Осенью подтвердил ресурс в зоне .blogspot.com. Блог до сих пор не проиндексирован. Предположительно (по моим домыслам) блоги в этой зоне находятся под каким-то фильтром. Разумеется, что, когда и в каком объеме индексировать - внутреннее дело компании Яндекс. Однако, в справочных материалах, доступных из интерфейса Яндекс.Вебмастер утверждается: Почему Яндекс не знает о моем сайте? Как сообщить Яндексу о моем сайте? Возможно, робот еще просто не успел его проиндексировать. Вы можете сообщить роботу о вашем сайте, заполнив форму на странице webmaster.yandex.ru. Скорее всего, сайт будет проиндексирован в течение двух недель. [Image] Если сайт был добавлен в список ваших сайтов на Яндекс.Вебмастере, то нет необходимости использовать форму «Добавить URL». Ваш сайт уже и так поставлен в очередь на индексирование. По моему мнению, процитированные абзацы вводят в заблуждение, т.к. создают впечатление, что сайт будет проиндексирован в течении двух недель после подтверждения прав на него.
У меня юкозовский сайт (то есть, как впоследствии выяснилось, с забаненной доменной зоны) проиндексировали только после того, как я послала плакательное письмо ) А я до сих пор, хамская рожа, не поблагодарила ((
писал письма, жду робота зеркальщика с начала зимы =( Ничем не могут помочь. Зеркальщика на выгул не пускают =(
Яндекс вообще не индексирует ресурсы в зоне .blogspot.com
gaudeamus-omskcity
5 марта 2008, 09:23
Спасибо, гораздо привлекательней, чем аналогичное в Гугле "Коды статуса HTTP". Исчезли, наконец-то, последние 4 ошибки из-за внешних ссылок на уже удалённые ненужные страницы более полугода назад. Всё в коде подчистил, кое-где (в навигационных строках-цепочках, недосмотрел) были ссылки на них же. Ещё раз спасибо. Мне сейчас вообще на порядок больше нравится, чем панель в Гугле. Там вообще отврат, если уж честно... Юзабилити-логики - никакой. Только вот вопрос, товарищи... Загружено одно кол-во страниц, проиндексировано - другое... Когда будет адекватная индексация? Что за массовые выпадения из индекса? Может быть, подскажете вашему начальству, чтобы объединили как-то службы - отвечающие за Консоль и за саму индексацию?.. А то как в добрые советские времена - один пуговицы пришивает, второй кроит, третий - шьёт, четвёртый - примеривает... Мы, конечно, указывать и даже рекомендовать не можем, но всё же, дайте, ребята, адекватный сервис. Плиз, очень просим. Это очень нужно, прежде всего, большим нормальным долгоиграющим проектам.
я вот у гугля наблюдаю туже самую картину на сколько я смог понять, часть страниц не попадает в индекс из-за каких то причин, по процентному соотношению смог заключить что для гугля параметром отсева является слишком малая релевантность страницы, наверное и у Яндекса есть какой то подобный параметр.
gaudeamus-omskcity
6 марта 2008, 06:06
Про Гугл не могу подтвердить - все абсолютно страницы включены в индекс. У моего этого основного проекта есть и целевые 100%-релевантные страницы, есть страницы по продвижению (всё полностью авторское), есть страницы, посвящённые законодательству (в теме), есть новости - и авторские, и релизы, есть главная страница - она вообще компот. У других сайтов - форумов, визиток, интернет-магазинов - всё может быть очень разное по страницам. Если принимать во внимание, что, к примеру, жёстко задана тема "Учебные материалы", то неужели остальные профильные, но "нерелевантные" страницы будут по чьей-то прихоти исключаться из индекса? Нет, конечно. Логики и смысла в этом никакой. Дополнительные страницы могут быть очень даже нужны и интересны пользователям. То что происходит с Яндексом сейчас - это, скорее всего, чисто по техническим причинам. Я имею в виду ставшие массовыми выпадения из индекса. Ответ на вопрос "почему так?" кроется, наверное, в объективной технологии кластеризации и параллелизма в поисковой архитектуре. Что-то меняют последовательно по кластерам... Или по их группам... При этом фактов "расхлябанности" индекса по Рунету становится всё больше и больше... А запустить индексирование по полной они не могут, т.к. тогда в выдачах будет полнейший бардак. В общем, ждать нужно. Возможно, и на 8 Марта придётся сидеть в "безиндексье". Но, всё же, стОит надеятся, что яндексоиды не морочат нам голову, и всё действительно серьёзно. Да и зачем это им - заморачивать всех рунетчиков, - для чего, для какой объективности?
gaudeamus-omskcity
11 марта 2008, 09:02
Товарищи из Яндекс.Поиск, сделайте, пожалуйста, фичу "Что видит робот". Нам не нужно, что он учитывает/не учитывает, какие ссылки потит/непотит, дайте нам возможность видеть, что "забирает с собой" робот для анализа, определения релевантности и ранжирования. Хотя бы, для одной - главной страницы. Веб-разработчикам необходимо видеть, что из контента и как берётся в индексирование. "Сохранённая копия" - почти мёртвый инструмент для этого. Думается, наличие такого функционала сняло бы многие проблемы. А то тут сидишь, гадаешь, - что индексируется, а что нет.
Чего там у Вас сегодня поломалось ?
Яндекс вообще нормально распознает Robots.txt ? Я написал так: ____ User-agent: * Disallow: Host: www.url.com ____ Проверяю через: http://www.yandex.ru/cgi-bin/test-robots "Не найдено ни одного подходящего правила"
Это не совсем верная конструкция Вот так правильно ____________________ User-agent: Yandex Disallow: Host: www.url.com User-agent: * Disallow: ____________________ Host: только для яндекса, остальные поисковики воспринимают как ошибочный оператор
Почему не верная конструкция? http://robotstxt.org.ru/rurobots/yandex#h79-4 "Во избежания возникновения проблем с зеркалом/ами сайта рекомендуется использовать директиву «Host». Директива «Host» указывает роботу Яндекса на главное зеркало данного сайта. С директивой «Disallow» никак не связана. User-agent: Yandex Disallow: /cgi-bin Host: www.site.ru либо User-agent: Yandex Disallow: /cgi-bin Host: site.ru "
User-agent:
Что-то сегодня весь день с выдачей какая-то ерунда... Чиним?
И ещё не стоит врать, что "индексируется всё так, как видит пользователь" ...
gaudeamus-omskcity
17 марта 2008, 11:51
Вот сегодня классно всё отображается: загруженных страниц, страниц в индексе, - это всё путём. Но опять показываются ошибки "документ не найден" (404). Этих внутренних ссылок давно уже нет - страницы удалены. Уж который раз запустил глобальный и "поиск", и "поиск и замену" по проекту - ничего... Почему показывает-то опять? И внешние ссылки кем-то проставленные на страницы, которые уже удалены за ненадобностью... Что с ними делать? Я же их не смогу "убрать"...
Возможно ли сортировать сайты по собственному усмотрению
 
У меня юкозовский сайт (то есть, как впоследствии выяснилось, с забаненной доменной зоны) проиндексировали только после того, как я послала плакательное письмо ) А я до сих пор, хамская рожа, не поблагодарила ((

Везет тебе, а я под баном агс полгода сижу. Плачу и не помогает. Сейчас robots.txt создал, так Яндекс стал грузить только 1 страницу.. Знать бы в чем дело
Бодров Данила
1 августа 2011, 09:10

Щас добавлю сайт свой http://serdce-marii.pp.ua - Сайт фанатов телесериала Сердце Марии, и посмотрю как проиндексирует...

Есть сайт мобильный контент. Как только не настраивал это, разницы никакой. Для чего вообще это нужно?

 
Вексельман
9 октября 2012, 23:18

Вот и я тоже добавлял несколько сайтов сразу: один строительный портал, другой сайт по продвижению и разработке сайтов и ещё новостной портал. Сколько Вы думаете я прождал индексации? ...почти три недели, вот так.

Очень познавательно. :-)