Блог Яндекс.Метрики

Достоверность данных: о точных, но бесполезных цифрах. И о полезных.

16 июля 2015, 16:57

Метрика предоставляет много цифр по всевозможным аспектам работы вашего сайта и все эти цифры точны с точки зрения методики их расчёта. Но с точки зрения человека это не всегда так: например, если на сайт заходил всего один посетитель и смотрел её 20 минут, формально верно, что среднее время посещения сайта — 20 минут. Но с точки зрения здравого смысла это не так: делать какие-то выводы о сайте на основании этого визита, очевидно, нельзя.

Или рассмотрим такую часто встречающуюся задачу: мы хотим посмотреть, с каких страниц сайта чаще всего начинаются визиты, завершившиеся конверсией.

Кажется, всё просто: открываем отчёт «Страницы входа», выбираем нужную цель и сортируем отчёт по конверсии.
 

D1_m.png



Но что мы получаем? Множество страниц, на которых был один посетитель и при этом достиг цели: конверсия визитов, начавшихся с таких страниц, — 100%. При этом очевидно, что такие страницы ценности для нас не представляют.

Можно попробовать задать ограничение на количество просмотров страницы —например, более 100 просмотров.
 

D2_m.png



Видим, что 100 явно оказывается недостаточно — есть страницы, которые смотрели более 100 раз, но при этом в рамках одного визита (и при этом визита с достижением цели). Возможно, это автообновление страницы или визиты роботов — в любом случае эти строки в отчёте мешают нам видеть интересующие нас данные, так что от них хотелось бы избавиться. Зададим 1 000 просмотров.
 

D3_m.png



Вроде, явный мусор исчез. Но не потеряли ли мы при этом какие-то страницы? К тому же эта граница количества визитов будет зависеть от выбранного периода построения отчёта и нужное ограничение для каждого периода придётся подбирать новое.

Но давайте посмотрим, а чем же нас на самом деле не устроил самый первый отчёт? Был один визит. Цель в этом визите была достигнута. Конверсия 100%. Это совершенно точно подсчитанное значение. Всё дело в том, что нас интересует не вычисленная конверсия, а истинная — та, которую мы увидели бы, если бы визитов было очень много.

Даже когда у нас будет 1 000 визитов, истинная конверсия будет отличаться от того, что мы увидим в отчёте. Просто при 1 000 визитах разница истинной и вычисленной конверсии будет небольшая. А при одном визите реальная конверсия может оказаться где угодно от очень малой величины до 100%.

Методы математической статистики позволяют рассчитать, сколько же надо визитов, чтобы можно было уверенно утверждать (например, с вероятностью 95%), что посчитанное нами значение конверсии отличается от истинного значения незначительно (например, не более чем на 5%).

Метрика 2 даёт возможность делать такой расчёт автоматически и скрывать те строки из отчёта, для которых нельзя уверенно утверждать, что отображённое значение отличается от теоретического истинного незначительно. Для этого достаточно поставить флаг «Скрывать статистически недостоверные данные»:
 

D4_m.png



Конечно, это применимо не только к конверсии, но и к большинству других величин, отображаемых Метрикой. Строки для фильтрации выбираются исходя из значений того столбца, по которому в настоящий момент отсортирован отчёт.

Также можно произвольно изменить пороги фильтрации — те самые 95% вероятности и 5% отклонения:
 

D5.png

33 комментария

До чего же заумная новая метрика. Слишком много информации, а ту, что надо приходится долго искать. Совершенно неудобно. Не зря говорят: "Лучшее - враг хорошего". Так это про новую метрику. 

Хоть бы старый интерфейс не удаляли, а то придется искать более простые счетчики.

Екатерина (Yandex.Metrika)
16 июля 2015, 18:14

Здравствуйте!

Вы можете использовать новый интерфейс, не настраивая ни одну из новых функций. Хотя они очень полезные и часто не такие сложные, как может показаться на первый взгляд. Но если Вам удобнее не разбираться в чём-то, чего не было в старом интерфейсе - пользуйтесь отчётами по умолчанию, они аналогичны отчётам старой Метрики.

Если же заходите разобраться в новой функциональности и возникнут какие-то трудности - ждём вопросов в нашу Службу поддержки или в клуб.

Это не одинаково удобные графики

Екатерина (Yandex.Metrika)
29 июля 2015, 12:39

Здравствуйте!

Есть какое-то неудобство в использования этого графика в новой Метрике?

Честно говоря, непонятно, даже как этот отчёт вывести на главную... раньше 90% полезной информации было на главной, остальное - лишь уточнение нюансов... сейчас и это пропало.

Екатерина (Yandex.Metrika)
13 августа 2015, 12:35

Уважаемый, venedima, возможность сокрытия недостоверных данных относится почти к любому стандартному отчёту Метрики. Большая часть метрик (=данных в столбцах отчётов) поддерживает фильтрацию статистически недостоверной информации.

Но, как я понимаю, Ваш вопрос относится к другой теме и касается Сводки новой Метрики и отсутствующим там виджетам? Если так, то команда сервиса занимается доработкой внешнего вида виджетов и возможностью создания виджета с несколькими линиями.

Екатерина (Yandex.Metrika)
10 ноября 2015, 12:11

Выбор цели находится справа сверху, прямо над таблицей с отчётами. Цели в раскрывающемся списке поделены на две категории - ретаргетинговые и конверсионные, в зависимости от типа, указанного при создании цели.

Если же проблема в том, что исчезла какая-либо ранее существовавшая цель, обратитесь в Службу поддержки. Мы проверим, не была ли цель по ошибке удалена и поможем её восстановить. http://feedback2.yandex.ru/metrika/

Екатерина (Yandex.Metrika)
10 ноября 2015, 13:48

Речь про сводку? Для виджетов сводки есть возможность выбрать цель (нажимаете на шестерёнку в правом верхнем углу и выбираете цель из раскрывающегося списка). Там же можно настроить метрики/группировки/сегментацию.

Из статьи так и не понял: 
1. что есть "истинное значение" и как оно расчитывается?
2. что значит "рассчитанного на бесконечно большой выборке"? 

Екатерина (Yandex.Metrika)
17 июля 2015, 13:48

Здравствуйте!

Здесь речь идёт о терминах из математической статистики. Истинное значение показателя всегда имеет какое-либо отклонение от значения рассчитанного. Чем больше выборка, на которой значение высчитывается, тем ближе оно к истинному значению.

Если Вас интересует более подробная теория, то можете почитать в статье .

Полагаю, имелось ввиду: что именно является выборкой для "Истинного" значения, используемого вами в рассчётах. Данные за весь период сбора статистики метрикой или что-то ещё?
Поэтому, у меня тот же вопрос) 
И ещё, как часто у вас это значение обновляется?

Екатерина (Yandex.Metrika)
4 октября 2015, 12:16

Кажется, есть небольшая путаница в терминах. В отчётах всегда отображается вычисленное значение, которое имеет ту или иную степень приближения к значению истинному. Выборка для определения этого вычисленного значения определяется на основе выбранных параметров (временной интервал и точность отображения данных), на которые накладываются выбранные при построении отчёта фильтры.

Здравствуйте! Екатерина, путаницы в терминах нет. Отображается вычисленное, но при фильтрации с помощью вашей новой функции используется отклонение от "Истинного значения". И пользователь Ponominalu, и я спрашивали, что есть "Истинное" значение и как именно оно рассчитывается у вас. Сами формулы для расчёта понятны, а вот какая выборка берётся для расчёта Истинного значения - непонятно.  
В вашем блоге и в самой Яндекс.Метрике сказано, что "Истинное значение - это значение, которое рассчитывается на бесконечно большой выборке". Поэтому вопрос: "бесконечно большая" - это за какой период? За всё время, за которое собирается статистика для метрики или же используется какая-то другая методика? 

Евгений Куршев (Яндекс)
5 октября 2015, 15:50

Истинное значение не рассчитывается. Если бы его можно было рассчитать - это был бы идеальный ответ и никакого другого вообще не понадобилось бы :)

Матстат не позволяет рассчитать это истинное значение, но позволяет рассчитать вероятность отклонения от него на не более чем заданную долю.

Екатерина (Yandex.Metrika)
5 октября 2015, 15:53
Матстат не позволяет рассчитать это истинное значение

Добавлю, что для более глубокого знакомства с мат. статистикой можете использовать вот эту книгу

 

Не нашел как в новой метрике сделать на одном поле график посетителей и просмотров. Так было на стартовой странице проекта старой метрики, сейчас все на отдельных графиках - неудобно, лично мне

Екатерина (Yandex.Metrika)
17 июля 2015, 12:36

Здравствуйте!

Пока такой тип виджета создать невозможно. Будем работать над новым типом виджета, похожим на привычный всем виджет с несколькими линиями из Метрики-1.

 

mihalina.techart-adv
17 июля 2015, 14:20

К вопросу о Метрике 2,0. Подскажите, а будет ли переделываться или дорабатываться справка? Дело в том, что сейчас она мало информативна. Приводятся только термины и какие-то общие понятия/настройки, но нет ни одного примера по отчетам или целям, каких-то подробных разяснений, как понимать те или иные данные в отчетах.

Хотелось бы более конкретизированную справку, как например у ГуглАналитикс.

Екатерина (Yandex.Metrika)
17 июля 2015, 14:38

Здравствуйте!

Работаем над обновлением документации. Посты в блоге стараемся публиковать сразу по факту появления какой-то новой функциональности. Дополненная справка обязательно будет, немного позднее. В ней будет добалено больше технической информации по алгоритмам рассчётов многих статистических показателей.

Сейчас информация по отчётам тоже есть, но, Вы правы, она приведена в сжатом виде http://help.yandex.ru/metrika/reports/about-reports.xml

Здравствуйте. Спасибо большое за Визиты/Просмотры/Посетители на главной странице - реально удобно, как и было.

Можно попросить еще график "визиты за неделю" расширить на 8 дней, как было в Метрике-1, чтобы можно было не заходя внутрь метрики посмотреть данные и сразу сравнить с этим же днем прошлой недели.

Допустим сегодня понедельник, я навел мышку на прошлый понедельник, сравнил, прикинул сколько еще будет... О! А у меня вразы больше посетителей за сегодня, чем на тот же день неделю назад! Значит я молодец! И сразу нервных клеток сколько сохранится! ;-)

Екатерина (Yandex.Metrika)
21 июля 2015, 11:56

Здравствуйте! Данные за текущий день всегда неполные, поскольку они накапливаются в течение всего дня и только под конец дня отражают фактическую посещаемость. Вы уверены, что сможете сохранить нервные клетки, используя такой не совсем корректный способ анализа? ;) Я бы рекомендовала Вам сравнивать значение за продыдущий день с аналогичным значением на прошлой неделе (всё-таки через отчёт по посещаемости или через виджеты сводки).

Кроме того, в новой Метрике для этой задачи есть удобная фукнция - сравнение с предыдущим периодом.

Главное - время! Когда у тебя 18 счетчиков на морде, проблематично каждый открыть и анализировать на виджете. Проще в течении дня обновлять главную страницу и мониторить результаты на графике прямо на морде, ну а в конце - святое дело, приложиться к виджетам уже пополной.

Я просто предложил, из мелочей складывается общее впечатление. Нет, так нет... Спасибо, что ведете диалог.

Поддерживаю, в старой метрике можно было сразу, не заходя на дашборд, сравнить с показателями дня на прошлой неделе. Сейчас такого нет и это крайне неудобно. Верните, пожалуйста, как было в старой метрике.

Екатерина (Yandex.Metrika)
22 июля 2015, 11:50

Пожелания переданы дизайнерам, отвечающим за доработку этого интерфейса. В ближайшее время сделем страницу со списком счётчиков более удобной. Про пожелание со списком целей для каждого счётчика тоже помним.

Большое спасибо, что прислушиваетесь )

Господи!

Наконец-то Яндекс заговорил нормальным математическим языком. А то, судя по сервисам типа "Недельный бюджет" и некоторым докладам на конференциях, создается впечатление, что у Яндекса с математикой туговато.

Мои аплодисменты!

По какой конкретно формуле считаются статистически достоверные значения? По какой методике?

Учитываете ли вы закон распределения статистической величины, например, конверсии?

Для всех ли коэффициентов конверсии одинаковая формула? Имею ввиду, если вероятность конверсии около 50% и 1,5% - вы будете считать доверительные интервалы по одной и той же формуле?

 

Екатерина (Yandex.Metrika)
13 августа 2015, 17:10

Для расчёта статистически достоверных значений вычисляются доверительные интервалы. Алгоритмы расчёта зависят от закона распределения статистической величины и различаются для относительных метрик (типа доли от общего объёма) и метрик, усреднённых по всем визитам.

При расчёте достоверных значений для коэффициента конверсии используется одна и та же формула, конечный вид которой определяется конкретным значением коэффициента.

Добрый день, а в API появится такой функционал?

Екатерина (Yandex.Metrika)
13 августа 2015, 16:48

Здравствуйте!

Да, API поддерживает фильтрацию недостоверных данных через параметр exclude_insignificant=true (или exclude_insignificant=0).

Да, прикольная штука. Спасибо!

Переодически яндекс метрика путает местами переходы из поисковых систем с переходами по рекламе (Директ)