Клуб о поиске Яндекса

Считать ли "Нашлось *** страниц" официальными данными?

katerina-test
23 ноября 2009, 16:02

В выдаче всех поисковых систем есть информация о количестве найденного по запросу. Выглядит:

  • в Яндексе - "Нашлось 549 млн страниц" (запрос "Россия", он же везде)
  • в Google - "Результаты 1 - 50 из примерно 80 000 000 для..."
  • в Рамблере - "Результаты 1–15 из 2 млн. сайтов, документов: 565 млн."
  • в Bing - "Результаты 1—10 из 40 700 000"
  • в Yahoo - "432,000,000 results for"

В обычном поиске эта информация бесполезна. Но мне попалась сравнительная задача - какие крылатые выражения из комедии А.С. Грибоедова "Горе от ума" наиболее популярны. Сравнивать пришлось именно объемы найденного, и здесь данные Яндекса и Гугла достаточно сильно разошлись. По первой пятерке наиболее популярных выражений это видно особенно хорошо:

Яндекс:
Как вас на это станет!
Я не из их числа.
Что нового покажет мне Москва?
И говорит, как пишет!
Не быть тебе в Москве, не жить тебе с людьми...


Google:
С чувством, с толком, с расстановкой.
Счастливые часов не наблюдают.
Служить бы рад, прислуживаться тошно.
Дым Отечества нам сладок и приятен!
Герой... Не моего романа

Кажется, пятерка от Гугла выглядит как-то убедительнее. Является ли это результатом какого-то недочета при определении объема найденного? Насколько достоверными можно считать предлагаемые Яндексом данные?


15 комментариев
Подписаться на комментарии к посту
А можно узнать чуть подробнее про методологию?

Было экспертно отобрано N строк из "Горе от ума", которые использовались в качестве запросов к искалкам, и по количеству найденного составлялись Топы? Такой алгоритм подвержен ошибке на самой первой стадии - выборе первых N строк. То есть, возможно, самая цитируемая строчка, была упущена вовсе.
Простая там методика, Рост. Берем "крылатую фразу" - их 357. Вводим ее в кавычках, считываем, что Яндекс и Гугл пишут о количестве найденного. В Яндексе эта ремарка появляется прямо под логотипом. Делаем вывод, раз Яндекс говорит, что по такой-то фразе найдено столько-то миллионов документов, значит, так оно и есть. Если в выдаче реально показывается всего лишь пара десятков ссылок, несмотря на заявление, что найдены много тысяч, значит, у Яндекса есть основания для такого отображения результатов. :0 Далее составляем таблицу и сортируем фразы по убыванию выданных Яндексом цифр.

С цифрами Тор10 составленного таким образом "рейтинга" выглядит так:
Как вас на это станет!  320000000
Я не из их числа.       277000000
Что нового покажет мне Москва?  80000000
И говорит, как пишет!   67000000
Не быть тебе в Москве, не жить тебе с людьми... 46000000
Нет в нем этого ума...  43000000
К тому, к сему, а чаще ни к чему...     31000000
Я первый, я открыл!     29000000
Где ж лучше? - Где нас нет.     27000000
Да он властей не признает!      20000000

Bottom10
Хоть есть охотники поподличать везде, Да нынче смех страшит и держит стыд в узде        52
Так можно только ощущать, Когда лишаешься единственного друга.  50
Он рад, но мы не рады.  42
Государственное дело: Оно, вот видишь, не созрело...    42
Мне весело, когда смешных встречаю, А чаще с ними я скучаю.     41
Кто в уме расстроен, Так все равно, от книг ли, от питья ль...  36
Превращенья Правлений, климатов, и нравов, и умов...    35
С какими я тебя сведу Людьми!   33
Кто влюблен - на все готов.     21
Деревня летом - рай.    7
Конечно, нельзя считать. Для фразы "Как вас на это станет" Яндекс заявляет, что нашлось 338 млн. документов, причем даже с "Показать все без исключения" мы видим в выдаче всего 306 сайтов. Это, что ж, по ляму документов на сайт приходится?
Интересно, много анализаторов построено на учете подобной фигни? :-)
Ашмановский анализатор полноты индекса на этом накалывается, он учитывает цифру, которую Яндекс говорит в "Нашлось xxx страниц" (например для http://analyzethis.ru/?analyzer=rare&location=ru&lang=ru&date=2009-12-09">сегодняшнего отчета по запросу http://yandex.ru/yandsearch?text=%C0%E9%E3%F3%EB%E0%EA&numdoc=10&rd=0&pag=u">Айгулак засчитал 529 страниц, как Яндекс объявил на первой странице), хотя при листании страниц по указанной в отчете ссылок к последней оказывается, что найдено меньше, раза в 2-3 (http://yandex.ru/yandsearch?p=52&numdoc=10&pag=u&text=%D0%90%D0%B9%D0%B3%D1%83%D0%BB%D0%B0%D0%BA&rd=0">186 для указанного запроса).
Здесь Вы путаете страницы и сайты
По яндексу: это про меня!.. особенно последняя строчка: "Не жить тебе в Москве, не быть тебе среди людей" *О_о...и кааится*
Удалённый пользователь
4 декабря 2009, 00:42
Жмите "Помощь" на странице поиска, выберите в меню слева "Язык запросов" и прочитайте (или просто зайдите на http://help.yandex.ru/search/?id=481939)
Вы это к чему про язык запросов?
Удалённый пользователь
4 декабря 2009, 01:06
В обычном (не расширенном) режиме поиска Яндекс и Гугл ищут разное. Более того в расширенном режиме у Яндекса "отсутствуют" (это на первый взгляд) возвожности поиска присутствующие в расширенном поиске Гугла etc. С точки зрения простого поиска Яндекса вы искал страницы в которых присутствует ХОТЬ ОДНО из слов, в простом поиске Гугла этот же запросу соответствуют страницы, в которых присутствуют ВСЕ слова. Есть разница? Более точно без детального описания метода поиска Вами информации ответить нельзя.
Волгин Виктор
9 декабря 2009, 18:17

думаете запросы вводились без кавычек?

"Не быть тебе в Москве, не жить тебе с людьми"

Удалённый пользователь
9 декабря 2009, 21:18
Я просто указал на такую возможность - я же свечку не держал ;-)
Волгин Виктор
10 декабря 2009, 11:40
Уверяю вас, Иванов знает язык запроса Яндекса лучше чем мы с вами :)
Удалённый пользователь
10 декабря 2009, 13:35
Sorry! Никого не хотел обидеть. Уважаю ;-) Согласен, что поиск дает разные результаты. Регулярно мучаюсь с этой проблемой. Особенно в сфере торговли, где количество мусора не то что зашкаливает, а уже грозит превратиться в с черную дыру :-) 

Весьма характерное сравнение для выдачи, мною представлено в данной статье о перипетиях поисковой оптимизации.

Так Google.com доброжелательно настроен не только к людям, но и оптимизаторам и другим участникам интернета.

1. При выдачи первые три позиции занимают то, что вы искали если конечна запрос не был туп.

2. Мощный поисковой Индексойдный потенциал готов день и ночь работать на вас не ставя в неудобное положение глупыми вопросами.

3. Большой объем вспомогательных инструментов которые помогают не только в продвижении но и по жизни общения в интернете помочь вам.

4. Не имеет своего каталога, но есть сервис куда можно добавить для лучшей индексации сайта и из-за того что сайт не имеет хороший код его не выкинут да же имея сетку сайтов.

5. Поисковик рад всегда помочь найти релевантный запросу уникальный контент сайта. Выдавая его на первые места.

6. Индексация уникальных статей только на сайт в ЖЖЖ dawlad.livejournal.com поставишь статью они как горячие пирожки вырывает их из рук 15 секунд и она уже в поисковике и некто её не украдет у тебя.

7. Почтовый сервис работает отлично спам просто нет ну если только заблудший раз в год.

8. Директ – реклама стоит недорого но правда не очень идет, но это в зависимости от товара и услуг предоставляемых пользователю

- - - - - - - - - - - - - - - - - - - - - -

Ya.ru настроен критично на сотрудничество с участниками Интернета.

1. При выдачи первый запрос идет только тот кто ближе к Яндексу или хорошо приплатил денег его структурам и не всегда соответствует запросу пользователя.

2. Слабый поисковой Индексойдный потенциал который очень часто меняет свои параметры которые многие почему то обходят, но все же и задает вопросы, , "А вы не робот?". Пытался найти “Аватар в 3D формате кинотеатра”, была засада Яд., не нашел ни так ни сяк ни на перекосят, но потом я нашел зайдя тупо на сайт кинотеатра зная, что он такой.

3. Мало сервисов для работы в Интернете и не распространены для бесплатного пользования, похоже экономят на всем да же на развитии своего ресурса. Все идет на борьбу с Веб-мастерами смешно.

4. Имеет сервисы куда если добавишь свой сайт тебя из-за плохого кода сайта который янд., почему то посчитал могут поставить в бан, лучшем случае фильтр и потом не выберешься до морковкиной заговени. Если занимаешься продвижением всю сетку сайтов поставят в бан навечно. Каталог стоит денег да же если сайт плохой “мусорный” его туда примут и еще спасибо скажут.

5. Выдает на гора даже сайты с пробитым контентом который плохо уникален или просто где-то украден.

6. На сайт в Твиторе twitter.com/dmtsmirnov ставишь что-то свое дай бог если чего появится через месяц, два, а то и вообще не появится. И это при условии уникальности текста. При этом воруй контент не хочу янд., до него может и не добраться но позиционируют себя, что”Со временем в Янд., все найдется”, а если это надо сейчас и здесь и нигде этого нету.

7. Наличие спама на почте наконец то не прошло и пяти лет спам пропал это радует.

8. Директе – реклама стоит как чугунный мост просто надо наверное нарко...ками или оруж..м торговать, что бы давать деньги и рекламу для продвижение в директе. “Жадность поисковика”

P.S. Можно много перечислять плюсы и минусы. Этих героев Давида и Голиафа, кто же из них хитрей и умелей, жадней и расточительней,  но все равно. Надо стремится к лучшему что бы быть первым при выдачи, а это на мой взгляд и против этого не пойдешь определенно Google.com