16 июля
2015

Достоверность данных: о точных, но бесполезных цифрах. И о полезных.

Метрика предоставляет много цифр по всевозможным аспектам работы вашего сайта и все эти цифры точны с точки зрения методики их расчёта. Но с точки зрения человека это не всегда так: например, если на сайт заходил всего один посетитель и смотрел её 20 минут, формально верно, что среднее время посещения сайта — 20 минут. Но с точки зрения здравого смысла это не так: делать какие-то выводы о сайте на основании этого визита, очевидно, нельзя.

Или рассмотрим такую часто встречающуюся задачу: мы хотим посмотреть, с каких страниц сайта чаще всего начинаются визиты, завершившиеся конверсией.

Кажется, всё просто: открываем отчёт «Страницы входа», выбираем нужную цель и сортируем отчёт по конверсии.
 

D1_m.png



Но что мы получаем? Множество страниц, на которых был один посетитель и при этом достиг цели: конверсия визитов, начавшихся с таких страниц, — 100%. При этом очевидно, что такие страницы ценности для нас не представляют.

Можно попробовать задать ограничение на количество просмотров страницы —например, более 100 просмотров.
 

D2_m.png



Видим, что 100 явно оказывается недостаточно — есть страницы, которые смотрели более 100 раз, но при этом в рамках одного визита (и при этом визита с достижением цели). Возможно, это автообновление страницы или визиты роботов — в любом случае эти строки в отчёте мешают нам видеть интересующие нас данные, так что от них хотелось бы избавиться. Зададим 1 000 просмотров.
 

D3_m.png



Вроде, явный мусор исчез. Но не потеряли ли мы при этом какие-то страницы? К тому же эта граница количества визитов будет зависеть от выбранного периода построения отчёта и нужное ограничение для каждого периода придётся подбирать новое.

Но давайте посмотрим, а чем же нас на самом деле не устроил самый первый отчёт? Был один визит. Цель в этом визите была достигнута. Конверсия 100%. Это совершенно точно подсчитанное значение. Всё дело в том, что нас интересует не вычисленная конверсия, а истинная — та, которую мы увидели бы, если бы визитов было очень много.

Даже когда у нас будет 1 000 визитов, истинная конверсия будет отличаться от того, что мы увидим в отчёте. Просто при 1 000 визитах разница истинной и вычисленной конверсии будет небольшая. А при одном визите реальная конверсия может оказаться где угодно от очень малой величины до 100%.

Методы математической статистики позволяют рассчитать, сколько же надо визитов, чтобы можно было уверенно утверждать (например, с вероятностью 95%), что посчитанное нами значение конверсии отличается от истинного значения незначительно (например, не более чем на 5%).

Метрика 2 даёт возможность делать такой расчёт автоматически и скрывать те строки из отчёта, для которых нельзя уверенно утверждать, что отображённое значение отличается от теоретического истинного незначительно. Для этого достаточно поставить флаг «Скрывать статистически недостоверные данные»:
 

D4_m.png



Конечно, это применимо не только к конверсии, но и к большинству других величин, отображаемых Метрикой. Строки для фильтрации выбираются исходя из значений того столбца, по которому в настоящий момент отсортирован отчёт.

Также можно произвольно изменить пороги фильтрации — те самые 95% вероятности и 5% отклонения:
 

D5.png

Поделитесь материалом в соцсетях

Подпишитесь на новости

8 800 234-24-80

Звонок из регионов России бесплатный