Блог Яндекса для вебмастеров

Файлы Sitemap

2 июня 2008, 17:13

Обычно робот Яндекса узнаёт о страницах сайта, переходя по ссылкам. В большинстве случаев этого достаточно для полной индексации сайта. Однако, если ваш сайт содержит много динамически создаваемых страниц или же страницы, для попадания на которые требуется много переходов по ссылкам, робот Яндекса может не сразу найти некоторые страницы сайта или неверно определить их важность. Файлы Sitemap помогают решить эти проблемы.

Файл Sitemap -- это файл с дополнительной информацией о страницах сайта, подлежащих индексации. С его помощью вы можете сообщить Яндексу, какие страницы вашего сайта нужно индексировать, какие из них наиболее важны, а также как часто обновляется информация на страницах.

Яндекс поддерживает два формата файлов Sitemap:XML и текстовый.Описание форматов дано на сайте sitemaps.org/ru.

Вы можете сообщить Яндексу о наличии файла Sitemap для сайта двумя способами:

  • добавив URL файла Sitemap в раздел "Файлы Sitemap" сервиса Яндекс.Вебмастер;
  • добавив директиву Sitemap в файл robots.txt вашего сайта.

Робот ждёт ваших подсказок!

 

Михаил Сенин и разработчики сервиса Я.Вебмастер

47 комментариев
Подписаться на комментарии к посту
Хха, готовьтесь к перегрузкам :))
Ильин Андрей
2 июня 2008, 23:16
А без подсказок робот не найдет файл sitemap.xml в корне сайта?
Дело в том, что файл не обязательно должен называться sitemap.xml и не обязательно должен лежать в корне. А подсказки роботу находятся внутри файла Sitemap --- это те URL, которые вебмастер считает важными. Никто лучше вебмастера этого не знает.
пропиши в robot.txt sitemap: http://.../sitemap.xml и будет находить сам! А сгенерировать сам sitemap можно на http://htmlweb.ru/analiz/sitemap.php
Качественный сервис! спс

Круто!!!! Спасибо огромное за ссылку!!!

Не знаю ошибка это или нет. У меня в сайтмэп-индексах для домена прописаны ссылки на сайтмэпы субдоменов. Субдоменов очень много - это дневники юзеров. ЯВ ругается на то, что сайтмэпиндекс ссылается на сайтмэпы субдомендоменов. Можно это как-то исправить? Было бы очень удобно.
См. "Файлы Sitemap и перекрестная отправка" тут http://www.sitemaps.org/ru/protocol.php#location
По ссылке про субдомены отдельно написано: "если файл Sitemap расположен по адресу http://www.primer.ru/sitemap.xml, в нем могут быть указаны URL-адреса из субдомена http://subdomen.primer.ru." Мой случай как раз про субдомены, а не про перекрестную отправку: в сайтмэпиндексе http://beon.ru/sitemapindex_0.xml есть запись про http://shadow.beon.ru/sitemap_blog_shadow_0.xml.gz и ЯВ ругается: "Некорректный URL (не соответствует местоположению файла Sitemap)" , хотя они находятся на одном домене 2 уровня.
Поздравляю! Вы нашли ошибку в русском переводе стандарта файлов Sitemap. Вот что написано в исходной английской версии: For instance, if the Sitemap is located at http://www.example.com/sitemap.xml, it can't include URLs from http://subdomain.example.com Т.о. правильный перевод должен быть: Например, если файл Sitemap расположен по адресу http://www.primer.ru/sitemap.xml, в немНЕ могут быть указаны URL-адреса из субдомена http://subdomen.primer.ru. Рекомендую всё-таки изменить структуру файлов Sitemap и использовать перекрестную отправку.
А как Вы предлагаете просматривать статистику и ошибки по сайтмэпам, если у меня 200 тыс субдоменов? Я не могу каждый подтверждать. Удобно иметь один сайт в интерфейсе и через него смотреть статистику по всем его субдоменам. Не хотел Вам этого говорить, ног в Гугловских сайтмэпах нет подобной проблемы.
В стандарте написано: ... Файл индекса Sitemap может указывать только файлы Sitemap, которые находятся на том же сайте, что и файл индекса Sitemap. Например, файл индекса http://www.vashsait.ru/sitemap_index.xml может включать файлы Sitemap, размещенные на сайте http://www.vashsait.ru, но не на сайте http://www.primer.ru или http://vashkhost.vashsait.ru. ... Если всё же реализовать "как у Гугла", то получится, что владелец домена сможет без всякого подтверждения по-своему трактовать важность страниц на поддоменах. Это может когда-то и удобно, но в целом неправильно. Почему бы не положить в http://beon.ru/sitemapindex_0.xml сылку на файл Sitemap http://beon.ru/sitemap_blog_shadow_0.xml.gz внутри которого URL вида http://shadow.beon.ru/doc.html (т.е. из поддомена) и в shadow.beon.ru/robots.txt поместить директиву Sitemap: http://beon.ru/sitemap_blog_shadow_0.xml.gz Тогда все URL с поддоменов дойдут до робота. При этом правда (в текущей реализации) в контексте домена beon.ru URL вида http://shadow.beon.ru/doc.html будут трактоваться как ошибки, но они будут корректны в контексте поддомена shadow.beon.ru Это действительно ошибка в диагностике. Мы её устраним. Но, несмотря на ошибочную диагностику, всё URL дойдут до робота. Спасибо за содержательное обсуждение!
Сейчас в shadow.beon.ru/robots.txt написано: Sitemap: http://shadow.beon.ru/sitemap_blog_shadow_0.xml.gz Что, наверное самое логичное :-) . А нововведения про перекрестную отправку не факт что кем-то поддерживаются. Так что боюсь с ними экспериментировать. Вон у МСН вообще можно только один сайтмэп иметь! | Если всё же реализовать "как у Гугла", то получится, что владелец домена сможет без всякого подтверждения по-своему трактовать важность страниц на поддоменах. Это может когда-то и удобно, но в целом неправильно. Ну делайте как считаете нужным. Моё дело предложить. Как я понимаю, у того же Гугла у сайтмэпов есть степень доверия. Если в сайтмэпе написано, что краулить страницу надо раз в час, а она месяцами не меняется, то использовать сайтмэп для получения полезной информации не стоит. И с приоритетами так же. Так что искуственно понижать кому-то приоритет ИМХО нафиг никому не сдалось, и доверия к такому понижению быть не может.
Да, логичнее всего задавать файлы Sitemap отдельно для каждого поддомена. Строго говоря sitemap или sitemapindex не являются корректными, если в них есть URL для разных хостов. И нет никакой гарантии, что из некорректного файла sitemap вообще что-то дойдёт до робота. Так что лучше не смешивать в одном sitemapindex разные домены (и поддомены). Степень доверия --- это уже детали реализации. Не думаю, что стоит на них полагаться
А что в таком случае нужно написать в shadow.beon.ru/robots.txt, если поддомен http://shadow.beon.ru/ содержит более 50000 URL?
ссылку на сайтмэ-индекс. в нём ссылки на сайтмэпы с этими урлами.
Не могу сделать мапу своему сайту http://www.luizacoll.ru/
Не могу сделать мапу своему сайту http://www.luizacoll.ru/

Предоставляю услугу по созданию карты для сайта или Sitemap для ваших сайтов. Связаться со множно по
ICQ 2721081
E-mail: testpeople@ya.ru

Ну давно бы так! У гугла например такая фенька уже давно.
Долго же вы
Вебпланета уже язвит по этому поводу :) http://webplanet.ru/news/service/2008/06/03/sitemap.html
Слава компании Google за ее интеллектуальные изобретения, спасибо Яндексу, что не отстает от времени и реализовали то, что гугловцы предложили в 2005. Это действительно хороший шаг. А есть ли собственные идеи или все время так и будете следовать за Гуглом?

Собственные идеи есть. К примеру невалидный тег .

;-)

Лучше напишите как будет выглядеть запись в robots.txt с описанием Sitemap. User-agent: Yandex Disallow: /dir/ Disallow: /file.html Host: яндекс.ру Sitemap: http://яндекс.ру/sitemap.xml так? или так можно? :) User-agent: Yandex Disallow: /dir/ Disallow: /file.html Host: яндекс.ру Sitemap: http://яндекс.ру/sitemap.xml :)
Константин Переяслов
3 июня 2008, 11:57
а не Sitemap: sitemap.xml ?
Нет, нужно указывать полный урл.
Теперь бы еще пояснения для блондинок дали где это искать. У меня пока не получилось!
На http://htmlweb.ru/analiz/sitemap.php впиши свой URL и читай внимательно внизу страницы "описание для блондинок"! ;-)
поздно. я уже сама все поняла :)
итак все нормально индексит
Это который гугловский?
отличная новость!
Добавил... Ну в гугле - это давно сделал. Честно сказать большого смысла не вижу. Тут война в десятку в поиске попасть, а не карту добавлять.
А у меня вот такая проблема: Имеется сайт, в корне которого лежит sitemap по адресу http://site.ru/sitemap.xml В этом sitemap прописаны урлы в виде http://site.ru/?l=news&id=... В чём ошибка? Обработчик выдаёт "Некорректный URL (не соответствует местоположению файла Sitemap)", доходит до 203 записи и прекращает работу. (Всего записей в файле sitemap - 900). Гугл этот же файл корректно индексирует.
Если всё так, как написано, то надо обратиться в службу поддержки (нажав на ссылку "Задать вопрос о сайте в службу поддержки" на странице со списком файлов Sitemap) Ошибок (и замечаний) может быть меньше чем записей в файле Sitemap, т.к. после 100 ошибок обработка файла прекращается. После 100 замечаний прекращается их дальнейший показ.
наконец-то! Рекомендую классный генератор sitemap: http://htmlweb.ru/analiz/sitemap.php
Наконец-то!
Здравствуйте! писала в службу поддержки ответа пока нет а вопрос очень срочный! У меня проблема, мне пришло письмо на мой эл ящик shurshalka0@ya.ru из службы поддержки Яндекса, в котором была информация о том что на меня поступила какая то жалоба, я не придала должного значения этому письму и мой ящик заблокировали, ответ на контрольный вопрос я не помню. Все бы ничего, да только я со своего аккаунта веду рекламные кампании на Яндекс.Директ. И на моем эл кошельке лежат деньги, соответственно доступ и туда мне закрыт. Помогите мне пожалуйста решить эту проблему. жду ответа на этот ящик mamapapa4@ya.ru
Странно, подключил sitemap.xml в вебмастере, а мне он занёсса в ошибки, типа "Формат документа не поддерживается?". Это как понять ??? Кому верить ???
оки.. помогу чем смогу))
Когда же появится передача sitemap файла Яндексу через HTTP запрос? аналогично как у http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=34609
Наконец нашла где об этом можно почитать
Могу ли я формировать файл с директивами sitemap (формата xml) c помощью php, т.е. предоставить поисковику не файл sitemap.xml, a файл sitemap.php, поисковик поймет?

А как будет выглядеть запись в robots.txt

Host: ? как правильно 

если имя сайта магазин-идей.рф

дело в том, что в яндексе написано - кирилица не допустима! 

похоже, что так host: xn----7sbalhglibmxr.xn--p1ai

 

Вопрос ,как быть со следующей ошибкой  в sitemap?


Неизвестный тег Строка 1: image:image



Как быть с  изображениями в Яндексе ? Будет ли эта ошибка влиять на позиции и ранжирование сайта ???
В протоколе sitemaps.org недавно увеличили ограничение размер файла. Теперь он может быть до 50 Mb https://www.sitemaps.org/protocol.html.


В помощи для вебместеров Яндекса https://yandex.ru/support/webmaster/controlling-robot/sitemap.html еще установлено ограничение 10 Mb http://img.netpeak.ua/kutasok/c6BOw-2017-09-26.png . 


Вопрос: ограничение в 10 Mb еще актуально или не успели изменить текст рекомендаций?