Нормальное распределение — это распределение, плотность вероятности которого задана формулой:
Здесь мю под экспонентой означает среднее, или более точно математическое ожидание. Сигма в квадрате отвечает за разброс вокруг среднего, то есть это дисперсия. Если подставите мю=x, то получите формулу, которая есть на обложке вопроса.
График плотности выглядит как колоколообразная кривая.
Видно, что пик соответствует математическому ожиданию. Изменение ожидания приводит к сдвигу всей кривой по горизонтали. Дисперсия отвечает за «широту» этой кривой. При маленькой дисперсии вся вероятность сосредоточена около среднего.
Немного про плотность. Площадь под кривой всегда равна 1. Чем шире кривая, тем ниже пик и наоборот. Это означает, что вероятность попасть в интервал от минус до плюс бесконечности равна 1. Если мы будем брать конечные отрезки, то вероятность случайной величины попасть в них будет соответствовать площади на отрезком. То есть площади, ограниченной снизу самим отрезком, сверху кривой, а по бокам вертикальными линиями, соответствующими концам отрезка.
Отсюда следует, что нормальное распределение устроено так, что вероятность оказаться далеко от среднего сильно уменьшается по мере того, как мы будем смещать отрезок вправо или влево.
Несмотря на неочевидную формулу, нормальное распределение играет значительную роль в теории вероятности, так как к нему при определенных условиях сходятся случайные величины с другими распределениями. Это называется центральной предельной теоремой, которая может формулироваться в нескольких вариантах. Другими словами, это класс теорем.
Суть ЦПТ в том, что если вы возьмете сумму более или менее похожих (в смысле условия теоремы) случайных величин, то в итоге получите случайную величину очень похожую на нормальную. Чем больше случайных величин вы возьмете, тем больше будет сходство с нормальным распределением.
Для примера возьмем бернуллиевскую случайную величину. Она принимает два значения 0 и 1 с вероятностями (1-p) и p. Например, если речь идет о подбрасывании монетки, то нулем можно обозначить решку, а единицей орел. Тогда вероятности будут равны 1/2.
Теперь представьте ситуацию, когда при выпадении орла к случайной величине добавляется единица, а при выпадении решки отнимается. Это уже разновидность случайного процесса под названием случайное блуждание. Процесс можно изобразить картинкой, которую я взял из учебника Ширяева по теории вероятностей.
Если зафиксировать число шагов на уровне n, а процесс прогнать много раз, то итоговое распределение чисел будет сильно напоминать нормальное распределение. То есть ±n будет встречаться редко, ±(n-1) чаще и так далее. Чаще всего будет ноль, так как среднее число орлов и решек будет одинаково при многократном повторении. Все это иллюстрируется доской Гальтона. В статье Википедии есть анимация этого эксперимента.
Если увеличивать число шагов и число экспериментов, то сходство будет все более очевидным.
ЦПТ очень помогает в анализе данных. Например, в эконометрике. Если используются большие выборки, то для тестирования статистических гипотез можно опираться на асимптотическое поведение. Другими словами, не зная исходного распределения, все же иметь возможность делать какие-то статистические выводы.
Энергетик по профессии. Интересы: лингвистика, психология. · 19 окт 2021
Простыми словами - чем больше случайных факторов влияет на результат, тем больше вероятность, что результат будет каким-то средним.
Например, если вы возьмёте один игральный кубик, то шанс получить любое число от 1 до 6 при броске - одинаковый, 1/6.
А вот если взять два кубика, то шанс получить 2 или 12 ощутимо меньше, чем шанс получить 7. Это можно понять хотя бы из... Читать далее