Openstack DevOps and IBM/Informix Certified DBA . Phd in Math (Duality of spaces of... · 18 февр 2022
Статистическая мощность проверки гипотезы - это вероятность обнаружения эффекта, если существует истинный эффект, который необходимо обнаружить. Мощность может быть рассчитана и зарегистрирована для завершенного эксперимента, чтобы прокомментировать уверенность, которую можно иметь в выводах, сделанных на основе результатов исследования. Его также можно использовать в качестве инструмента для оценки количества наблюдений или размера выборки, необходимых для обнаружения эффекта в эксперименте. Важность статистической мощности проверки гипотезы, чтобы рассчитать анализ мощности и кривые мощности в рамках экспериментального дизайна.
============================
Статистическая мощность — это вероятность того, что проверка гипотезы обнаружит эффект, если эффект должен быть обнаружен.
Анализ мощности можно использовать для оценки минимального размера выборки, необходимого для эксперимента, с учетом желаемого уровня значимости, размера эффекта и статистической мощности.
=============================
Статистическая проверка гипотез
=============================
Проверка статистической гипотезы делает предположение о результате, называемом нулевой гипотезой. Например, нулевая гипотеза для теста корреляции Пирсона состоит в том, что между двумя переменными нет связи. Нулевая гипотеза для t-критерия Стьюдента состоит в том, что нет никакой разницы между средними значениями двух совокупностей.
Тест часто интерпретируется с использованием p-значения, которое представляет собой вероятность наблюдения результата при условии, что нулевая гипотеза верна, а не наоборот, как это часто бывает с неправильными интерпретациями.
p-значение (p): вероятность получения результата, равного или более экстремального, чем наблюдалось в данных.
При интерпретации p-значения теста значимости необходимо указать уровень значимости, который часто называют греческой строчной буквой альфа (а). Обычное значение уровня значимости 5% записывается как 0,05. Значение p интересует в контексте выбранного уровня значимости. Результат теста значимости считается «статистически значимым», если p-значение меньше уровня значимости. Это означает, что нулевая гипотеза (о том, что результата нет) отвергается.
p <= alpha: отклонить H0, другое распределение.
p > альфа: не удалось отклонить H0, то же распределение.
Где: Уровень значимости (альфа): граница для определения статистически значимого результата при интерпретации p-значения.
============================
Мы видим, что p-значение — это всего лишь вероятность, и что на самом деле результат может быть другим. Тест может ошибаться. Учитывая p-значение, мы можем сделать ошибку в нашей интерпретации.
Есть два типа ошибок; они есть:
Ошибка первого типа. Отклонить нулевую гипотезу, когда на самом деле нет значительного эффекта (ложноположительный результат). Значение p оптимистично мало.
Ошибка второго рода. Не отвергать нулевую гипотезу при наличии значительного эффекта (ложноотрицательный результат). Значение p пессимистично велико.
В этом контексте мы можем думать об уровне значимости как о вероятности отклонения нулевой гипотезы, если она верна. Это вероятность совершения ошибки типа I или ложного срабатывания.
=========================
Что такое статистическая мощность?
Статистическая мощность или мощность проверки гипотезы — это вероятность того, что проверка правильно отклоняет нулевую гипотезу.
То есть вероятность истинно положительного результата. Это полезно только тогда, когда нулевая гипотеза отвергается.
Статистическая мощность — это вероятность того, что тест правильно отклонит ложную нулевую гипотезу.
Статистическая мощность имеет значение только тогда, когда ноль ложен. Чем выше статистическая мощность данного эксперимента, тем ниже вероятность совершения ошибки типа II (ложноотрицательная). Тем выше вероятность обнаружения эффекта при наличии эффекта. На самом деле мощность в точности обратна вероятности ошибки второго рода.
=========================
Более интуитивно статистическую мощность можно рассматривать как вероятность принятия альтернативной гипотезы, когда альтернативная гипотеза верна. При интерпретации статистической мощности мы ищем эмпирические установки, обладающие высокой статистической мощностью.
Низкая статистическая мощность: большой риск совершения ошибок типа II, т.е. ложный отрицательный результат.
Высокая статистическая мощность: небольшой риск совершения ошибок типа II.
Экспериментальные результаты со слишком низкой статистической мощностью приведут к неверным выводам о значении результатов.Обычно эксперименты планируют со статистической мощностью 80% или выше, например. 0,80. Это означает 20-процентную вероятность столкнуться с областью Типа II. Это отличается от 5%
вероятности обнаружения ошибки типа I для стандартного значения уровня значимости.
==========================
Анализ мощности
Статистическая мощность — это одна часть головоломки, состоящей из четырех взаимосвязанных частей; они есть:
1.Размер эффекта. Количественная величина результата, присутствующего в популяции. Размер эффекта рассчитывается с использованием определенного статистического показателя, такого как коэффициент корреляции Пирсона для взаимосвязи между переменными или d Коэна для различия между группами.
Размер образца. Количество наблюдений в выборке.
Значимость. Уровень значимости, используемый в статистическом тесте, т.е. альфа. Часто устанавливается на 5% или 0,05.
Статистическая мощность. Вероятность принятия альтернативной гипотезы, если она верна.
Все четыре переменные связаны. Например, больший размер выборки может облегчить обнаружение эффекта, а статистическая мощность теста может быть увеличена за счет повышения уровня значимости. Анализ мощности включает в себя оценку одного из этих четырех параметров при заданных значениях трех других параметров. Это мощный инструмент как при планировании, так и при анализе экспериментов, которые мы хотим интерпретировать с помощью проверки статистических гипотез.
Как практики, мы можем начать с разумных значений по умолчанию для некоторых параметров, таких как уровень значимости 0,05 и уровень мощности 0,80. Затем мы можем оценить желательный минимальный размер эффекта в зависимости от проводимого эксперимента. Затем можно использовать анализ мощности для оценки минимально необходимого размера выборки.Кроме того, можно выполнить множественный анализ мощности, чтобы получить кривую одного параметра по отношению к другому, например, изменение размера эффекта в эксперименте при изменении размера выборки. Можно создавать более сложные графики, варьируя три параметра. Это полезный инструмент для экспериментального дизайна.
================================
Анализ мощности t-теста Стьюдента
================================
Мы можем конкретизировать идею статистической мощности и анализа мощности на рабочем примере.
Рассмотрим t-критерий Стьюдента, который представляет собой проверку статистической гипотезы для сравнения средних значений двух выборок гауссовых переменных. Предположение или нулевая гипотеза теста состоит в том, что выборочные совокупности имеют одно и то же среднее значение, например. что между выборками нет различий или что выборки взяты из одной и той же исходной совокупности.
Тест рассчитает p-значение, которое можно интерпретировать относительно того, одинаковы ли выборки (не отклонить нулевую гипотезу) или между выборками существует статистически значимое различие (отклонить нулевую гипотезу). Обычный уровень значимости для интерпретации p-значения составляет 5% или 0,05.
Уровень значимости (альфа): 5% или 0,05.
Величину эффекта сравнения двух групп можно количественно оценить с помощью меры величины эффекта. Общепринятой мерой для сравнения разницы средних значений двух групп является d-мера Коэна. Он вычисляет стандартную оценку, которая описывает разницу с точки зрения количества стандартных отклонений, в которых различаются средние значения. Размер большого эффекта для d Коэна составляет 0,80 или выше, что обычно принято при использовании меры.
Величина эффекта: коэффициент Коэна не менее 0,80.
Мы можем использовать значение по умолчанию и принять минимальную статистическую мощность 80% или 0,8.
Статистическая мощность: 80% или 0,80.
Для данного эксперимента с этими значениями по умолчанию нас может заинтересовать оценка подходящего размера выборки. То есть, сколько наблюдений требуется от каждой выборки, чтобы по крайней мере обнаружить эффект 0,80 с вероятностью обнаружения эффекта 80%, если он истинен (20% ошибки типа II) и вероятностью обнаружения 5%. эффект, если такого эффекта нет (ошибка первого рода).
Мы можем решить это с помощью анализа мощности.
Библиотека statsmodels предоставляет класс TTestIndPower для расчета анализа мощности для критерия Стьюдента с независимыми выборками. Следует отметить класс TTestPower, который может выполнять тот же анализ для парного критерия Стьюдента.
=========================
Экземпляр TTestIndPower должен быть создан, а кривые мощности — это линейные графики, которые показывают, как изменение переменных, таких как размер эффекта и размер выборки, влияет на мощность статистического теста.Функцию plot_power() можно использовать для создания кривых мощности. Зависимая переменная (ось X) должна быть указана по имени в аргументе «dep_var». Затем можно указать массивы значений для параметров размера выборки (nobs), размера эффекта (effect_size) и значимости (альфа). Затем будет построена одна или несколько кривых, показывающих влияние на статистическую мощность.
Например, мы можем принять значимость 0,05 (по умолчанию для функции) и исследовать изменение размера выборки между 5 и 100 с низким, средним и высоким размерами эффекта.
=========================
При выполнении примера создается график, показывающий влияние на статистическую мощность (ось Y) для трех различных размеров эффекта (es) по мере увеличения размера выборки (ось X).Мы можем видеть, что если нас интересует большой эффект, точка убывающей отдачи с точки зрения статистической мощности возникает примерно при 40–50 наблюдениях.
Полезно, что в statsmodels есть классы для выполнения анализа мощности с другими статистическими тестами, такими как F-тест, Z-тест и тест хи-квадрат.