Вебмастер
Содержимое сайта и партнерские программы
Партнерские программы
Безопасность сайта

Ответы на вопросы об индексировании

Какие страницы могут не включаться в поисковую базу?

Каждый день Яндекс индексирует миллионы веб-страниц и добавляет их в поисковую базу. Чтобы не заполнять ее документами, которые все равно не попадут в результаты поиска, Яндекс анализирует каждый документ с помощью специального алгоритма.

Если алгоритм определяет, что страница не сможет стать одним из наиболее релевантных ответов на какой-либо запрос, то она не включается в текущую поисковую базу.

Таким образом, не все документы, которые были проиндексированы, можно увидеть в поиске Яндекса. Важно, что исключение страницы из поисковой базы никак не влияет на ее посещаемость и посещаемость сайта в целом, так как эта страница все равно не появлялась бы в поиске.

Кроме того, Яндекс продолжает переиндексировать и анализировать эти документы точно так же, как и все другие. Если на каком-то этапе алгоритм обнаружит, что страница может попасть в результаты поиска, она будет добавлена в поисковую базу.

Что такое дублирование страниц?

Дублирование страниц — это наличие на сайте страниц с одинаковым содержанием, но доступных по разным адресам.

Например:

  • http://example.com и http://example.com/index.php/,
  • http://example.com/page/ и http://example.com/page.

Если обе страницы были проиндексированы роботом Яндекса, система индексации объединит их в группу дублей. В поисковую выдачу войдет только одна из этих страниц.

Существует множество причин появления дублирующих страниц:

  • естественные причины (например, если страница с описанием товара интернет-магазина присутствует в нескольких категориях сайта);
  • причины, связанные с неправильной организацией структуры сайта.

Чтобы оставить в поисковой выдаче нужную страницу, рекомендуем явно указывать ее для робота Яндекса. Это можно сделать следующими способами:

Мой сайт переехал (изменился URL). Что делать?

Если между страницами старого и нового сайта сохранилось однозначное соответствие, сделайте так, чтобы при обращении по старому URL сервером выдавалась ошибка 301 ( «Moved Permanently» ), а поле Location указывало на соответствующий URL нового сайта. Если старый сайт был закрыт, вы можете ускорить удаление его из индекса, воспользовавшись формой Удалить URL.

Вы перегрузили мой сервер. Пожалуйста, прекратите!

Повлиять на поведение робота можно при помощи файла robots.txt. Напишите в нем запрет для робота Яндекса на обращение к скриптам, которые сильно загружают сервер или воспользуйтесь директивой Crawl-delay.

Вы пытались скачать секретную информацию с нашего сервера. Что делать?

Робот берет ссылки с других страниц, а это значит, что на какой-то странице указаны ссылки на секретные разделы вашего сайта. Вы можете как закрыть их паролем, так и указать запрет для робота Яндекса в файле robots.txt. И в том, и в другом случае робот не будет скачивать секретную информацию.

Как оградиться от мошеннических роботов, представляющихся роботами Яндекса?

Если Вы хотите оградиться от мошеннических роботов, представляющихся роботами Яндекса, Вы можете использовать фильтрацию, основанную на обратных DNS запросах. Такая схема более предпочтительна по сравнению с управлением доступом на основе IP адресов, так как она устойчива к изменениям внутренних сетей Яндекса.

Насколько критично, что мой сервер не выдает last-modified? Я пытался настроить этот параметр, но ничего не вышло.

Даже если сервер не выдает дату последней модификации документа (last-modified), ваш сайт будет проиндексирован. Однако в этом случае следует учитывать следующее:

  • в результатах поиска не будет показываться дата рядом со страницами вашего сайта;

  • при сортировке по дате сайт не будет виден большинству пользователей;

  • робот не сможет получить информацию о том, обновилась ли страница сайта с момента последнего индексирования. А так как число страниц, получаемых роботом с сайта за один заход, ограничено, изменившиеся страницы будут переиндексироваться реже.

Мой сервер не выдает кодировку, это критично? Я пытался ее настроить, но ничего не вышло.

Робот Яндекса хорошо определяет кодировку документов самостоятельно, поэтому отсутствие кодировки в заголовках сервера не помешает индексированию сайта.

Сайт сделан с использованием фреймов. Яндекс в результатах поиска выдает ссылки на внутренние фреймы сайта. Что нам делать, ведь вся навигация становится недоступна, т.к. находится в другом фрейме?

Проблему можно попытаться решить при помощи JavaScript. Перед загрузкой страницы необходимо проверить, открыт ли родительский фрейм с навигацией, и если нет, открыть его.

Объем трафика между моим веб-сервером и вашим роботом слишком большой. Существует ли поддержка скачивания страниц в сжатом виде?

Да, существует. Поисковый робот Яндекса при каждом запросе страницы говорит: «Accept-Encoding: gzip,deflate» . Это означает, что настроив соответствующим образом свой веб-сервер, вы сможете снизить объем передаваемого трафика между ним и нашим роботом. Однако следует иметь в виду — передача контента в сжатом виде увеличивает нагрузку на CPU вашего сервера, и, если он сильно загружен, могут возникнуть проблемы. Поддерживая gzip и deflate, робот придерживается стандарта rfc2616, раздел 3.5 .

Ваш робот пытается скачать страницы моего сайта по битым ссылкам. Почему?

Робот берет ссылки с других страниц, значит, на одной из них указаны некорректные ссылки на ваш сайт. Возможно, вы изменили структуру сайта и ссылки, стоявшие на других веб-страницах, стали некорректными.

Что будет делать робот со страницей, на которой стоит redirect? А если используется директива refresh?

Получив в заголовке ответа информацию, что данный URL является редиректом (коды 3хх), робот Яндекса добавит адрес, на который ведет редирект в список адресов для обхода. Если редирект является постоянным (код 301 или страница содержит директиву refresh), то старый URL будет исключен из списка обхода.

Моя страница периодически пропадает из результатов поиска. В чем дело?

Если при обращении к странице иногда возникает ошибка (например, из-за нестабильного хостинга), робот удаляет страницу из поиска до следующего успешного обращения.

Можно ли управлять частотой переиндексирования с помощью директивы Revisit-After?

Нет. Робот Яндекса ее игнорирует.

Какие протоколы передачи данных поддерживаются при индексировании?

Яндекс в настоящее время поддерживает два протокола: HTTP и HTTPS.

Как указать роботу, чтобы он индексировал страницы именно содержащие знак "/" в конце url или без него?

Страницы, содержащие знак «/» в конце url и без него, являются для нашего робота разными. Если эти страницы содержат одинаковый контент, то лучше установить перенаправление 301 с одной страницы на другую (вы можете сделать это с помощью настроек в файле htaccess) или указать канонический URL.

Почему робот обращался к несуществующим страницам/поддоменам моего сайта?

Вероятно, что робот где-либо обнаружил ссылки на них и попытался проиндексировать. Для того чтобы робот индексировал только полезные страницы сайта, несуществующие поддомены и страницы должны быть недоступны или возвращать код ошибки 404.

Оцените статью
Спасибо за ваш отзыв!