Клуб о поиске Яндекса

Вопросы по "Поиск в интернете: региональные особенности"

liveuser
22 июня 2010, 17:50

Несколько вопросов возникло в процессе чтения http://company.yandex.ru/facts/researches/ya_regions_search_2010.xml

 

Каждый день пользователи из разных регионов России задают десятки миллионов запросов к поиску Яндекса.


1. Что здесь и далее считается поиском Яндекса? Относятся ли к нему Яндекс.Блоги, Картинки, Карты, yandex.com?

Основной поток запросов к Яндексу — уникальные, то есть такие запросы, которые в течение дня задали только один раз.


2. А есть данные по количеству уникальных запросов за неделю?

Поисковая сессия — это последовательность запросов, с помощью которых пользователь решает одну поисковую задачу. Если пользователь не делал новых запросов в течение 10 минут, то сессия считается законченной.


3. Сессия определяется только по времени или как-то определяете характер запросов? Т.е. посчитаете за одну или за две сессии, если я решил в течение 10 минут последовательно две поисковые задачи? А если решал их одновременно?

среднее количество просмотренных страниц с результатами поиска — 1,3


4. Можно, для справки, среднее количество просмотренных страниц для запросов "в контакте" и "порно"?

Каждый день Яндексу задают 100 миллионов запросов. 45% из них задают пользователи из десяти городов...


Т.е. 45 миллионов запросов в день.

Эти пользователи совершают в день 8,7 млн поисковых сессий.


Т.е. на одну сессию приходится в среднем 45 / 8,7 = 5,2 запроса.

Каждый день, когда человек что-то ищет Яндексом, он задаёт в среднем 6–7 запросов в рамках 2–3 поисковых сессий.

5. Т.е. ни разу не совпадает с 5,2 запроса/сессия. Почему?

 

6. Я правильно понимаю, что графики распределения показов - абстрактные, а не отражающие реальное распределение? Больно уж они похожи у всех городов-жаворонков и городов-сов; "немного меньше среднего", простите, не информативно. Судя по тому, что конкретных чисел не указали, вся разница между "совами" и "жаворонками" - единицы процентов.

 

По сути - за исключением доли геозависимых запросов (что может отражать и работу вашего алгоритма, а не интересы пользователей), никаких региональных особенностей не видно, разница чисто косметическая.

7 комментариев
Подписаться на комментарии к посту
Добрый день.
Спасибо за проявленный интерес к исследованиям Яндекса.

1. Под поиском в исследовании о региональных особенностях понимается общий поиск (Yandex.ru). Поиск по картинкам и блогам не учитывался.

2. В данном исследовании мы не считали количество уникальных запросов за неделю, но это число можно приблизительно оценить. Уникальные запросы составляют чуть больше половины всего потока запросов. Ежедневно поиску Яндекса задают около 100 млн. запросов. Значит, около 50 млн. запросов являются уникальными. Запрос может быть задан в другие дни недели и перестать быть уникальным. Тем не менее, большая часть этих запросов таковыми останутся. Это значит, что число уникальных запросов в неделю очень велико — их задают примерно 250 миллионов раз.

3. Сессия определяется по времени, характер запросов мы не анализировали. В рамках одной сессии пользователь действительно может решать несколько поисковых задач, но, с другой стороны, он может возвращаться к одной и той же задаче в нескольких сессиях.

4. Такие данные мы не предоставляем.

5. Это ошибка. Благодарим Вас за внимательность. Сессий не 8,7 млн. а 18,5 млн. Эта цифра складывается также из суммы сессий по всем городам, указанным в исследовании.

6. Графики не абстрактные и основаны на реальных цифрах. Понятно, что в целом биоритмы у всех людей примерно одинаковые — днём они работают, а ночью спят, поэтому различия в распределении запросов по времени суток по определению не могут быть очень большими. Тем не менее, эти различия вполне заметны. Например, по выходным в вечерний пик (с 22 до 23 часов) петербуржцы задают около 8% суточного числа запросов, а ростовчане — около 7%. В дневной пик (с 13 до 14 часов) картина обратная — петербуржцы делают 5,5% запросов, а ростовчане — 6,5%. И в целом питерская кривая идёт с запаздыванием от ростовской примерно на час. Но в некотором смысле Вы правы — на графиках эта разница была бы не очень заметна, поэтому мы и нарисовали их схематически.

В разных городах поведение пользователей в целом схоже, но есть интересные особенности и цифры, их мы и отразили в своем исследовании. Все основные закономерности и различия отражены в первой части исследования, а информация про города — это дополнение, интересное жителям этих городов, даже если различия и не столь велики.
Удалённый пользователь
22 июня 2010, 18:29
Добрый день.
Разумеется, постоянно использую поисковые машины, но весьма далёк от проблем, связанных с их работой. Просто привлекли внимание чёткая логика в изложении своей позиции и убедительность доводов, приводимых в её защиту.
Прошу извинить, что не в тему ).
А какова погрешность на результат для ростовчан в 7%? И для петербуржцов с их 8%?
Уточните, пожалуйста, какую именно погрешность Вы имеете в виду?
Любая статистическая величина обладает погрешностью, как известно. Сегодня вы измерили результат и у вас получилось, что это:
"Например, по выходным в вечерний пик (с 22 до 23 часов) петербуржцы  задают около 8% суточного числа запросов"
А на следующей неделе это уже всего лишь 4.5%. Потом цифра чуть подросла и стала равна 7.6%. Из серии измерений можно дать оценку на измеряемую величину и определить среднее значение.
Как я понимаю, 7% это именно среднее значение, а вот какова погрешность исходя из наблюдения за случайно величиной?
Мы анализировали данные за месяц в полном обьеме, то есть не выборку, а совокупность. Поэтому здесь вопрос о погрешности не возникает. Данные за другие периоды времени мы не анализировали.
Хорошо. Но ваша выборка просто ровна месяцу.

Любой ограниченный период времени есть выборка. Возможен также шум связанный с ростом интернет-аудитории при увеличение периода наблюдений и составлении нескольких измерений. Существует также систематическая погрешность в конце концов.