В статистике используются много разных средних значений, но у них у всех есть общее. Мы используем средние для тех данных, в которых предполагается, что есть какое-то типовое значение, вокруг которого группируются данные. При этом существует некоторый разброс данных вокруг этого значения. Мы хотим выяснить это типовое значение и не обращать внимание на индивидуальные отклонения от него. Среднее значение выбирается так, чтобы минимизировать эти индивидуальные отклонения.
Многое зависит от того, как мы меряем отклонения. Способов для этого — великое множество, в зависимости от разных способов получаются разные средние.
Посмотрим на два важных примера для списка данных 1,2,4,10,13.
Пример 1. Посмотрим на точки на числовой оси с координатами 1,2,4,10,13. В каждой точке поместим одинаковую массу. Можно "подпереть пальцем" числовую прямую, чтобы массы оказались в равновесии. Координата подпорки характеризует центральное значение для этих данных, а их индивидуальные отклонения "уравновешиваются".
Оказывается, что для такого способа усреднения координата подпорки минимизирует квадраты отклонений всех чисел из списка. Обозначим ее буквой А. Рассмотрим для разных А значения суммы
(1-А)²+(2-А)²+(4-А)²+(10-А)²+(13-А)² и найдем, при каком А это значение наименьшее. Оказывается, когда А — среднее арифметическое значение чисел из списка. В нашем примере А=6.
Пример 2. Представим, что в точках с координатами 1,2,4,10,13 стоят домики, и мы собираемся построить в какой-то точке колодец так, чтобы сумма расстояний от всех домиков до колодца была наименьшей — чтобы зря воду не таскать. Оказывается, надо построить домик в срединной точке, с координатой 4. Убедиться, что это так — хорошая задачка для семиклассников. Это другое среднее значение для чисел из списка, его называют медианой. Обозначим ее буквой М. Рассмотрим для разных М значения суммы
|1-M|+|2-M|+|4-M|+|10-M|+|13-M| и найдем, при каком M это значение наименьшее. Оказывается, когда M — центральне число, в нашем случае 4. Если бы в списке было четное количество элементов, можно было бы взять любое число между двумя центральными.
А применяется это все тогда, когда нужно выяснить типовое значение в списке данных, без учета индивидуальных отклонений. Всегда требуется отдельное исследование, насколько применим этот подход. Надо проверять, верно ли предположение, что у данных есть типовое значение, а они от него случайно отклоняются. Надо тщательно выбирать, как мы меряем отклонения. Это зависит от характера данных и целей исследования.