Индексация сайта: что это и чем она полезна
Индексация сайта — это процесс, при котором поисковые системы сканируют, анализируют и сохраняют информацию о веб-страницах. После этого роботам становится проще понимать структуру сайта и контент, который находится внутри.
Поисковый алгоритм помогает определить, на каком месте страница появится в выдаче. Простыми словами: чем больше контент подходит под запрос пользователя, тем выше он в результатах поиска при прочих равных. Высокие позиции увеличивают трафик и делают ресурс популярнее.
Страница появляется в Поиске после нескольких этапов:
- Сканирование. Поисковые роботы, они же краулеры, автоматически обходят интернет и ищут новые или обновлённые веб-страницы. Этот процесс происходит постоянно, и чаще всего система узнаёт об изменениях как раз после таких проверок.
Роботам можно помочь и добавить информацию об изменениях самостоятельно. Как это сделать, расскажем дальше.
- Анализ и ранжирование. Роботы изучают, что находится на веб-страницах, определяют соответствие запросу. Они оценивают качество и авторитетность источников, анализируют метатеги, структуру ресурса и многое другое.
- Хранение. После анализа все данные сохраняются в базе поисковой системы. Это позволяет быстро и точно обрабатывать запросы пользователей и предоставлять им самые релевантные результаты Поиска.
- Обновление. После индексации поисковые системы продолжают следить за изменениями. Когда обновляются разделы сайта и контент, краулер сканирует их и обновляет информацию в индексе поисковой системы. Этот процесс происходит автоматически и непрерывно.
Если страница не прошла индексацию, то не попадёт в поисковую выдачу. Именно поэтому владельцам сайтов полезно как можно скорее попадать в индекс и не терять трафик.
Как попасть в индекс
Если владелец веб-сайта сделал редизайн, изменил структуру или добавил новый контент, ему хочется, чтобы изменения как можно быстрее отобразились в Поиске. Приведём четыре основных способа, как это сделать.
Файл Sitemap
Sitemap — это файл, в котором находятся данные обо всех страницах сайта и его структуре. Он помогает системам быстрее и точнее проиндексировать ресурс и определить его основные разделы и подразделы. Sitemap особенно полезен, если на веб-сайте много контента.
Для индексации сайта в Яндексе используют Sitemap в формате XML или TXT. Первый вариант более распространён, потому что он позволяет передавать краулерам дополнительную информацию. Например, не только адрес веб-страницы, но и дату её последнего обновления, частоту изменений и значимость.
Сделать Sitemap можно с помощью плагинов CMS (система управления контентом) или специальных онлайн-генераторов. Загрузить карту сайта можно через Яндекс Вебмастер — для этого нужно добавить туда свой ресурс.
Перед загрузкой карты в Яндекс Вебмастер проверьте файл на ошибки. Они появляются из-за неправильного синтаксиса, дублирования страниц или отсутствия необходимых тегов.
Чтобы загрузить Sitemap:
- Перейдите в Яндекс Вебмастер в раздел «Файлы Sitemap».
- Выберите ваш ресурс из списка или добавьте его.
- Впишите URL, по которому доступен документ. Например: https://example.com/sitemap.xml.
- Нажмите «Добавить». Робот загрузит новые данные в течение двух недель.
Если вы изменили уже загруженный файл Sitemap, не нужно его удалять и добавлять повторно: роботы регулярно проверяют существующий файл на обновления и ошибки*
* Интерфейс сервиса может отличаться от изображения
Переобход в Яндекс Вебмастере
Переобход — это функция Вебмастера, которая позволяет вручную запросить посещение краулеров. Это полезно, если вы внесли изменения или хотите, чтобы индексация сайта в Яндексе прошла быстрее.
Переобход можно использовать и для старых страниц, и для новых, которых ещё нет в индексе. Чтобы сообщить роботам об изменениях:
- Откройте Вебмастер и в левом меню выберите «Индексирование» → «Переобход страниц». Или зайдите в сервис по прямой ссылке.
- Укажите адрес веб-страницы, которую обновили.
- Нажмите «Отправить».
Изменения отобразятся в Поиске в течение 14 дней. Количество страниц, которые можно отправить на переобход, ограниченно. Дневной лимит для вашего сайта смотрите в Вебмастере.
Также в Вебмастере можно управлять скоростью обхода. Желательно оставлять её в значении «Доверять Яндексу», иначе можно снизить скорость проверок и попадания в индекс.
IndexNow
IndexNow — это протокол, который помогает ускорить индексирование. Он позволяет отправить запрос на индексацию определённой веб-страницы или всего ресурса, сообщить об удалённых или обновлённых материалах.
IndexNow не гарантирует, что ваш контент моментально появится в результатах поиска, но может ускорить этот процесс. Применять протокол можно с помощью API с использованием HTTP и JSON для обмена данными.
Индексация сайта в поисковых системах требует подтверждения, что ресурс принадлежит именно вам. Для этого нужно создать и разместить специальный ключ, который будет передаваться при каждом запросе к API. Сделать его можно вручную или автоматически в CMS.
Обход по Яндекс Метрике
Обход по счётчикам — это функция в Яндекс Вебмастере, которая позволяет автоматически обновлять информацию о веб-страницах с помощью сервиса Яндекс Метрика.
Чтобы включить функцию и ускорить индексацию:
- Привяжите счётчик к сайту Вебмастера.
- Включите функцию «Обход по счётчикам». Её можно найти в левом меню в разделе «Индексирование».
Какие ещё есть способы ускорить индексацию
Мы рассказали, как указать роботам, что на сайте произошли изменения. Но есть ещё несколько способов стимулировать их обходить ваши веб-страницы чаще — без изменений в Sitemap, переобхода в Вебмастере или IndexNow. Рассказываем о них.
Внутренние ссылки
Внутренние ссылки — это гиперссылки на сайте, которые ведут на другие страницы этого же ресурса. Они помогают поисковым роботам переходить с одной страницы на другую и быстрее обнаруживать обновления.
Вот несколько советов по созданию внутренних ссылок:
- Тщательно продумайте структуру веб-сайта, особенно меню. Страницы, которые важны для индексации, должны собирать больше ссылок.
- Не делайте ссылки ради ссылок: они должны нести пользу для посетителя. Например, можно использовать блоки «Похожие товары», «Материалы по теме» и «Новинки».
- Следите, чтобы не было «битых» ссылок и страницы не ссылались сами на себя.
Внутренняя перелинковка не ограничивается этими тремя пунктами — есть и другие способы её настроить.
Внешние ссылки
Внешние ссылки перенаправляют пользователя с одного веб-сайта на другой — ими же пользуются поисковые роботы, чтобы обнаружить обновления. Если на вас ссылается авторитетный ресурс, краулеры чаще обходят сайт.
Самый простой способ получить внешние ссылки — делать интересный контент, на который пользователи сами захотят ссылаться. В Яндекс Вебмастере можно посмотреть, кто ссылался на ваш ресурс. Для этого в левом меню найдите пункт «Ссылки» и откройте в нём раздел «Внешние ссылки».
Как узнать, что страница проиндексирована: популярные способы
Через Яндекс Вебмастер. Вот как проверить индексацию страницы:
- Выберите раздел «Индексирование» в боковом меню.
- Нажмите «Проверка страницы».
Есть ещё один способ:
- Войдите в аккаунт Вебмастера.
- Выберите нужный сайт.
- В левом меню выберите «Индексирование» → «Страницы в поиске».
- В разделе «Исключённые страницы» можно увидеть, какой контент и по каким причинам исключён из Поиска.
Через оператор url:. Введите в поисковой строке запрос «url:[имя вашего домена]». Если страница проиндексирована, она появится в результатах.
Через команду site:. Введите в поисковой строке браузера запрос «site:[имя вашего домена]». В результатах вы увидите все страницы своего сайта, включая поддомены, сможете оценить глубину индексации и понять, чего не хватает.
Как закрыть страницу от индексации
Обычно от индексации закрывают веб-страницы, которые не несут пользы, а только нагружают сервер. К таким ним можно отнести:
- Страницы с ошибкой 404
- Дубликаты
- Версии для печати
- Вспомогательные страницы, такие как поиск, авторизация, регистрация и административная панель сайта
Также от индексации закрывают всё, где есть конфиденциальная информация, например персональные данные пользователей.
Есть пять способов закрыть доступ поисковым роботам:
1. Через robots.txt. Закрыть страницу, раздел или сайт целиком поможет директива Disallow. Как ею пользоваться, читайте в разделе помощи Вебмастера.
Важно: если использовать Disallow в robots.txt, закрытый контент всё ещё может показываться в поисковой выдаче. Тогда в сниппете появится предупреждение «Владелец предпочёл скрыть содержимое» или «Ссылки на страницу содержат:».
2. Через HTML-код. Чтобы запретить краулерам индексировать весь контент страницы, можно использовать метатег robots.
<head>
<meta name="robots" content="noindex">
</head>
3. На уровне сервера. Найдите в корневой папке файл .htaccess и добавьте туда специальный код:
SetEnvIfNoCase User-Agent «^Yandex» search_bot
— для роботов Яндекса.
Ещё один вариант — настроить HTTP-заголовок X-Robots-Tag для определённого URL на сервере. Так выглядит HTTP-ответ, где заголовок запрещает индексирование страницы:
HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
X-Robots-Tag: noindex
3. Через CMS. Как это сделать, зависит от конкретной системы. Например, в WordPress есть встроенные функции для управления индексацией, а в других CMS понадобятся специальные плагины вроде Yoast SEO.
4. Через авторизацию. Страницу или раздел можно сделать доступными только после ввода логина и пароля.
Что может помешать индексированию
Приводим частые ошибки, из-за которых ресурс может индексироваться слишком долго:
- Неправильный robots.txt. По этому файлу краулеры понимают, какие страницы можно индексировать, а какие — нет. Если допустить в нём ошибки, часть контента — а иногда и весь веб-сайт — не попадёт в Поиск или будет отображаться некорректно.
В Яндекс Вебмастере в разделе «Инструменты» есть функция «Анализ robots.txt». Она помогает найти и исправить ошибки в файле — нужно только загрузить документ на проверку.
- Неверно настроенный ответ сервера. Если сайт долго не отвечает, люди не могут туда попасть, а поисковые роботы удаляют его из своих баз. Посмотреть доступность можно через «Проверку ответа сервера» в Яндекс Вебмастере.
- Скрытый или невалидный код затрудняет загрузку и вызывает проблемы при индексировании. Это может привести к неправильному отображению веб-страницы в результатах поиска.
Чтобы узнать, есть ли проблемы, зайдите в «Диагностику сайта в Вебмастере». Инструмент покажет технические ошибки вроде проблем с подключением к серверу, некорректных настроек SSL-сертификата, неточностей в файле robots.txt и устаревшего Sitemap. Вы получите конкретные рекомендации, которые помогут исправить недочёты и повысить скорость попадания в индекс.
Выводы
- Индексация сайта — это процесс, при котором поисковые системы сканируют, анализируют и сохраняют информацию о веб-страницах. После этого роботам становится проще понимать структуру сайта и контент, который находится внутри.
- Чтобы сообщить роботам об изменениях на сайте и попасть в индекс, существует четыре способа. Это использование файла Sitemap, переобхода в Яндекс Вебмастере, протокола IndexNow и обхода по Яндекс Метрике.
- Роботы могут обходить ваши страницы и без дополнительных инструментов, если настроить внутренние и внешние ссылки. Благодаря им поисковые системы будут переходить с одной страницы на другую и сами найдут обновления.
- Чтобы узнать, проиндексирована ли страница, воспользуйтесь инструментами Яндекс Вебмастера, оператором url: или командой site:.
- Если нужно закрыть некоторые страницы сайта от индексации, сделайте это через файл robots.txt, HTML-код, CMS, авторизацию или на уровне сервера.
- Если ресурс индексируется слишком долго, проблема может быть в файле robots.txt, неправильно настроенном ответе сервера либо скрытом или невалидном коде.
* Актуальный интерфейс сервисов может отличаться от изображений в статье