Какова средняя величина в статистике, ее роль и значение, логическая формула средней? Где все это применяется?

МатематикаData science+3

Анонимный вопросData Science

29 марта 2022 · 5,9 K

Редактор, автор и переводчик книг по математике · 29 мар 2022 ·

В статистике используются много разных средних значений, но у них у всех есть общее. Мы используем средние для тех данных, в которых предполагается, что есть какое-то типовое значение, вокруг которого группируются данные. При этом существует некоторый разброс данных вокруг этого значения. Мы хотим выяснить это типовое значение и не обращать внимание на индивидуальные отклонения от него. Среднее значение выбирается так, чтобы минимизировать эти индивидуальные отклонения.

Многое зависит от того, как мы меряем отклонения. Способов для этого — великое множество, в зависимости от разных способов получаются разные средние.

Посмотрим на два важных примера для списка данных 1,2,4,10,13.

Пример 1. Посмотрим на точки на числовой оси с координатами 1,2,4,10,13. В каждой точке поместим одинаковую массу. Можно "подпереть пальцем" числовую прямую, чтобы массы оказались в равновесии. Координата подпорки характеризует центральное значение для этих данных, а их индивидуальные отклонения "уравновешиваются".

Оказывается, что для такого способа усреднения координата подпорки минимизирует квадраты отклонений всех чисел из списка. Обозначим ее буквой А. Рассмотрим для разных А значения суммы

(1-А)²+(2-А)²+(4-А)²+(10-А)²+(13-А)²
и найдем, при каком А это значение наименьшее. Оказывается, когда А — среднее арифметическое значение чисел из списка. В нашем примере А=6.

Пример 2. Представим, что в точках с координатами 1,2,4,10,13 стоят домики, и мы собираемся построить в какой-то точке колодец так, чтобы сумма расстояний от всех домиков до колодца была наименьшей — чтобы зря воду не таскать. Оказывается, надо построить домик в срединной точке, с координатой 4. Убедиться, что это так — хорошая задачка для семиклассников. Это другое среднее значение для чисел из списка, его называют медианой. Обозначим ее буквой М. Рассмотрим для разных М значения суммы

|1-M|+|2-M|+|4-M|+|10-M|+|13-M|
и найдем, при каком M это значение наименьшее. Оказывается, когда M — центральне число, в нашем случае 4. Если бы в списке было четное количество элементов, можно было бы взять любое число между двумя центральными.

А применяется это все тогда, когда нужно выяснить типовое значение в списке данных, без учета индивидуальных отклонений. Всегда требуется отдельное исследование, насколько применим этот подход. Надо проверять, верно ли предположение, что у данных есть типовое значение, а они от него случайно отклоняются. Надо тщательно выбирать, как мы меряем отклонения. Это зависит от характера данных и целей исследования.

Незадача Кью. Решение задач по математике

Перейти на yandex.ru/q/loves/7b65a89f-f3fa-4aac-9d7b-824b66b44f01

Александр Исаев

21 апреля 2022

Наиболее глубокий ответ, скорее всего, скрыт в ... теории чисел. Предельно просто об этом см. в главах 12–15 книги... Читать дальше