Как работает поиск Яндекса

  1. Этап 1. Обход сайта
  2. Этап 2. Загрузка и обработка данных (индексирование)
  3. Этап 3. Формирование базы страниц, которые могут участвовать в поиске
  4. Этап 4. Формирование результатов поиска
  5. Вопросы и ответы

Чтобы ваш сайт начал отображаться в результатах поиска, Яндекс с помощью роботов должен узнать о его существовании.

Робот — это система, которая обходит страницы сайтов и загружает их в свою базу. У Яндекса есть множество роботов. Сохранение страниц в базу и их дальнейшая обработка с помощью алгоритмов называется индексированием. На основе загруженных данных формируются результаты поиска. Они регулярно обновляются, и позиции сайта могут меняться.

До того, как сайт попадет в результаты поиска, должно пройти несколько этапов:

Этап 1. Обход сайта

Этап 2. Загрузка и обработка данных (индексирование)

Этап 3. Формирование базы страниц, которые могут участвовать в поиске

Этап 4. Формирование результатов поиска

Этап 1. Обход сайта

Робот самостоятельно определяет, какие сайты и как часто нужно посещать, а также какое количество страниц следует обойти на каждом из них.

При обходе робот учитывает список уже известных страниц, который формируется на основе следующих данных:
Роботы постоянно отслеживают появление новых ссылок, обновление контента уже загруженных страниц и их доступность. Это происходит до тех пор, пока:
  • ссылка размещена на вашем или стороннем сайте;
  • страница не запрещена для индексирования в файле robots.txt.

Когда робот пытается загрузить страницу сайта, он получает от сервера ответ с HTTP-статусом:

Код HTTP-статуса Примечание
200 OK Робот обойдет страницу.
3XX Роботу нужно обойти страницу, которая является целью редиректа. Подробнее об обработке редиректов.
4XX и 5XX

Страница с таким кодом не будет участвовать в поиске. Если до момента обращения робота она находилась в поиске, то будет удалена из него.

Чтобы страница не выпала из поиска, настройте сервер так, чтобы он отвечал кодом 429. Робот обращаться к странице и проверять код ответа. Это может быть полезно, если из-за неполадок с CMS страница сайта выглядит некорректно. После исправления измените ответ сервера.

Примечание. Если страница будет отвечать кодом 429 продолжительное время, это будет указывать, что сервер испытывает затруднения с нагрузкой. Следовательно это может снизить скорость обхода сайта.
Полезные инструменты
Поддержка версии HTTP/2

Робот Яндекса поддерживает версию HTTP/2 . Протокол HTTP/2 ускоряет загрузку страниц, в том числе и на мобильных устройствах, что облегчает посетителям взаимодействие с сайтом. Также этот протокол уменьшает нагрузку на сервер и экономит трафик. На частоту обхода страниц и изменение позиций сайта в результатах поиска Яндекса протокол HTTP/2 напрямую не влияет.

Если вы используете HTTP/1.1, робот продолжит индексировать ваш сайт. Эти протоколы совместимы, поэтому конфликтов с настройками вашего сервера не будет.

Этап 2. Загрузка и обработка данных (индексирование)

Робот определяет содержание страницы и сохраняет ее в свою базу. Для этого он анализирует контент страницы, например:
  • Содержимое метатега description, элемента title и микроразметки Schema.org, которое может быть использовано для формирования сниппета страницы.
  • Директиву noindex в метатеге robots. Если она найдена, то страница не попадет в результаты поиска.
  • Атрибут rel="canonical", указывающий на адрес, который вы считаете приоритетным для отображения в поиске для группы одинаковых по содержанию страниц.
  • Текст, изображения и видео. Если робот определит, что контент нескольких страниц совпадает, он может признать их дублирующими.