Семплирование
При наличии большого количества статистических данных, собираемых счетчиком, Яндекс Метрика может использовать только часть из них. Например, обрабатывать 1/10 всех визитов (и, соответственно, домножить результаты на 10 там, где это необходимо).
Процесс формирования такой выборки называется семплированием. Семплирование представляет собой степень сочетания скорости получения результатов и их точности.
Например, в результате работы семплирования в отчет могут не попасть данные по очень редко посещаемым URL-адресам или очень редко встречающимся поисковым фразам.
Управлять семплированием можно с помощью параметра запроса accuracy
, задающего размер выборки, по которой будет производиться расчет.
Этот параметр может принимать несколько значений:
low
— возвращает быстрый результат на основе сокращенной выборки данных.medium
— возвращает результат на основе выборки, сочетающей скорость и точность данных.high
— возвращает наиболее точное значение, используя наибольшую выборку данных. Этот режим может потребовать дополнительное время и замедлить обработку запроса.full
— возвращает все данные.
Так же этот параметр может принимать числовое значение из полуинтервала (0,1]:
1
— отсутствует семплирование (соответствует значениюfull
).0.1
или0.01
— доля возвращаемых данных (10%, 1%). Любое значение (например, 0.42) будет округляться до ближайшей степени числа 10.
По умолчанию параметр accuracy
имеет значение medium
.
В возвращаемых результатах примененное семплирование описывается следующими параметрами:
sample_share
— доля данных, по которым осуществлялся расчет (значение от 0 до 1).sample_size
— количество строк в выборке данных.sample_space
— общее количество строк в исходных данных (без применения семплирования).