Как работает поиск Яндекса

  1. Этап 1. Обход сайта
  2. Этап 2. Загрузка и обработка данных (индексирование)
  3. Этап 3. Формирование базы страниц, которые могут участвовать в поиске
  4. Этап 4. Формирование результатов поиска
  5. Вопросы и ответы

Чтобы ваш сайт начал отображаться в результатах поиска, Яндекс с помощью роботов должен узнать о его существовании.

Робот — это система, которая обходит страницы сайтов и загружает их в свою базу. У Яндекса есть множество роботов. Сохранение страниц в базу и их дальнейшая обработка с помощью алгоритмов называется индексированием. На основе загруженных данных формируются результаты поиска. Они регулярно обновляются, и позиции сайта могут меняться.

До того, как сайт попадет в результаты поиска, должно пройти несколько этапов:

Этап 1. Обход сайта

Этап 2. Загрузка и обработка данных (индексирование)

Этап 3. Формирование базы страниц, которые могут участвовать в поиске

Этап 4. Формирование результатов поиска

Этап 1. Обход сайта

Робот самостоятельно определяет, какие сайты и как часто нужно посещать, а также какое количество страниц следует обойти на каждом из них.

При обходе робот учитывает список уже известных страниц, который формируется на основе следующих данных:
Роботы постоянно отслеживают появление новых ссылок, обновление контента уже загруженных страниц и их доступность. Это происходит до тех пор, пока:
  • ссылка размещена на вашем или стороннем сайте;
  • страница не запрещена для индексирования в файле robots.txt.

Когда робот пытается загрузить страницу сайта, он получает от сервера ответ с HTTP-статусом:

Код HTTP-статуса Примечание
200 OK Робот обойдет страницу.
3XX Роботу нужно обойти страницу, которая является целью редиректа. Подробнее об обработке редиректов.
4XX и 5XX

Страница с таким кодом не будет участвовать в поиске. Если до момента обращения робота она находилась в поиске, то будет удалена из него.

Чтобы страница не выпала из поиска, настройте сервер так, чтобы он отвечал кодом 429. Робот обращаться к странице и проверять код ответа. Это может быть полезно, если из-за неполадок с CMS страница сайта выглядит некорректно. После исправления измените ответ сервера.

Примечание. Если страница будет отвечать кодом 429 продолжительное время, это будет указывать, что сервер испытывает затруднения с нагрузкой. Следовательно это может снизить скорость обхода сайта.
Полезные инструменты
Поддержка версии HTTP/2

Робот Яндекса поддерживает версию HTTP/2 . Протокол HTTP/2 ускоряет загрузку страниц, в том числе и на мобильных устройствах, что облегчает посетителям взаимодействие с сайтом. Также этот протокол уменьшает нагрузку на сервер и экономит трафик. На частоту обхода страниц и изменение позиций сайта в результатах поиска Яндекса протокол HTTP/2 напрямую не влияет.

Если вы используете HTTP/1.1, робот продолжит индексировать ваш сайт. Эти протоколы совместимы, поэтому конфликтов с настройками вашего сервера не будет.

Этап 2. Загрузка и обработка данных (индексирование)

Робот определяет содержание страницы и сохраняет ее в свою базу. Для этого он анализирует контент страницы, например:
  • Содержимое метатега description, элемента title и микроразметки Schema.org, которое может быть использовано для формирования сниппета страницы.
  • Директиву noindex в метатеге robots. Если она найдена, то страница не попадет в результаты поиска.
  • Атрибут rel="canonical", указывающий на адрес, который вы считаете приоритетным для отображения в поиске для группы одинаковых по содержанию страниц.
  • Текст, изображения и видео. Если робот определит, что контент нескольких страниц совпадает, он может признать их дублирующими.
Полезные инструменты
  • Диагностика — помогает убедиться в качестве сайта и исправить ошибки, если они есть.
  • Статистика обхода — показывает, какие страницы обошел робот и как часто он посещает сайт.
  • Как переиндексировать сайт — позволяет сообщить о новой странице сайта или об обновлении уже участвующей в поиске странице.

Этап 3. Формирование базы страниц, которые могут участвовать в поиске

На основе собранной роботом информации алгоритмы определяют страницы, которые могут участвовать в результатах поиска. При этом алгоритмы учитывают множество факторов ранжирования и индексирования, благодаря которым принимается окончательное решение. Например, в базу не попадут закрытые от индексирования страницы или страницы-дубли.

Возможна ситуация, когда страница содержит оригинальный, структурированный текст, но алгоритм не добавляет ее в базу, так как вероятность ее попадания в зону видимости на поиске очень низкая. Например, из-за невостребованности пользователями или высокой конкуренции в данной теме.

Полезные инструменты
  • Страницы в поиске — помогает отслеживать статус страниц сайта, например, HTTP-статус ответа или дублирование страниц.
  • Безопасность сайта — дает информацию о нарушениях и зараженных файлах.

Чтобы узнать о появлении в результатах поиска поддомена сайта, подпишитесь на уведомления.

Вопросы и ответы

Описание страницы в сниппете отличается от содержимого в description
В результатах поиска в качестве описания страницы используется текст, наиболее релевантный поисковому запросу: содержимое метатега Descripton или текст, размещенный на странице. Подробнее см. в разделе ../search-results/site-description.html#changing-header-description.
В результатах поиска отображаются ссылки на внутренние фреймы сайта
Перед загрузкой страницы с помощью консоли браузера проверьте, открыт ли родительский фрейм с навигацией. Если он закрыт, откройте его.
Мой сервер не выдает last-modified

Даже если сервер не выдает дату последней модификации документа (last-modified), ваш сайт будет проиндексирован. Однако в этом случае следует учитывать следующее:

  • В результатах поиска не будет показываться дата рядом со страницами вашего сайта.

  • Робот не сможет получить информацию о том, обновилась ли страница сайта с момента последнего индексирования. Количество страниц, получаемых роботом с сайта за один заход, ограничено, поэтому изменившиеся страницы будут переиндексироваться реже.

Как кодировка влияет на индексирование
Тип используемой на сайте кодировки не влияет на индексирование сайта. Если ваш сервер не передает в заголовке кодировку, робот Яндекса также определит ее самостоятельно.
Можно ли управлять частотой переиндексирования с помощью директивы Revisit-After?
Нет. Робот Яндекса ее игнорирует.
Яндекс индексирует сайт на иностранном домене?
Да. Сайты, содержащие страницы на русском, украинском, белорусском языках, индексируются автоматически. Ресурсы на английском, немецком и французском языках индексируются, если они могут быть интересны пользователям.
Как влияет на индексирование большое количество заданных параметров в URL и его длина

Большое количество заданных параметров в URL и повторяющихся вложенных директорий, а также слишком большая длина URL может привести к ухудшению индексирования сайта.

Максимальная длина URL — 1024 символов.

Индексирует ли робот архивы GZIP?
Да, робот индексирует архивы в формате GZIP (сжатие GNU ZIP).
Индексирует ли робот URL с якорем (#)?

Робот Яндекса не индексирует адреса страниц с якорем, кроме AJAX-страниц (с символом #!). Например, страница http://example.com/page/#title не попадет в базу робота, он проиндексирует страницу http://example.com/page/ (адрес до символа #).

Как робот индексирует страницы пагинации
Робот не учитывает атрибут rel со значениями prev и next. Поэтому страницы пагинации могут индексироваться и участвовать в поиске без ограничений.

Если страницы долгое время не попадают в результаты поиска или были исключены, в форме приведите примеры таких страниц.