Идея статистической значимости проста: когда P-значение достаточно мало, мы говорим, что результаты статистически значимы. Этот термин был популяризирован Рональдом Фишером в 1920-х годах и, несмотря на критику, которую мы рассмотрим позже, продолжает играть в статистике важную роль.
Рональд Фишер был незаурядным, но трудным человеком. Незаурядным потому, что его считают пионером в двух областях – генетике и статистике. А трудным, поскольку, имея весьма скверный характер, мог крайне негативно отзываться о тех, кто (по его мнению) оспаривал его идеи; к тому же его репутации сильно повредила поддержка евгеники и критика доказательств связи между курением и раком легких. И хотя его личная репутация пострадала в результате обнаружения его финансовых связей с табачной промышленностью, на научной репутации ученого это никак не сказалось, так как его идеи неизменно находят новое применение при анализе больших массивов данных.
Как упоминалось в главе 4, Фишер развил идею рандомизации для сельскохозяйственных испытаний во время работы на опытной сельскохозяйственной станции в Ротамстеде. Потом он продемонстрировал идеи рандомизации в своем знаменитом тесте с дегустацией чая, в ходе которого некая женщина (по имени Мюриэль Бристоль) заявила, что может по вкусу определить, добавляли в чашку молоко до или после чая.
В четыре чашки налили сначала чай, а затем молоко, а в четыре – сначала молоко, а потом чай. Все восемь чашек в случайном порядке выставили в ряд и сообщили Мюриэль, что здесь по четыре чашки каждого вида наливания. Говорят, она правильно определила все чашки. Если считать нулевой гипотезой то, что Мюриэль просто угадывала, то с помощью гипергеометрического распределения нетрудно показать, что вероятность этого равна 1/70 ≈ 1,4 %
[192]. Такое P-значение считается маленьким
[193], а потому результат можно объявить статистически значимым подтверждением того, что Мюриэль не угадывала, а действительно умела различать, в какой последовательности доливали молоко.
Подводя итог, мы действуем следующим образом.
1. Ставим вопрос в терминах нулевой гипотезы, которую хотим проверить. Обычно она обозначается H0.
2. Выбираем какую-нибудь статистику критерия, которая, если ее величина будет достаточно экстремальной, позволит нам поставить под сомнение нулевую гипотезу (часто большие значения такой статистики указывают на несовместимость с нулевой гипотезой).
3. Создаем выборочное распределение этой статистики при условии, что нулевая гипотеза верна.
4. Проверяем, находится ли наблюдаемая величина в хвостах этого распределения, что определяем с помощью P-значения: какова вероятность наблюдаемого экстремального распределения в случае, если верна нулевая гипотеза. Численно эта вероятность представляет собой площадь части распределения, лежащей правее наблюдаемой величины.
5. Аккуратно подходим к определению, что такое «экстремальная» величина, – например, если с нулевой гипотезой несовместимы и большие положительные, и большие отрицательные значения статистики критерия, то P-значение должно это учитывать.
6. Объявляем результат статистически значимым, если P-значение меньше некоторой критической пороговой величины.
Рональд Фишер использовал в качестве удобных порогов значимости P < 0,05 и P < 0,01 и составил таблицы критических значений статистики критерия, которые нужно превзойти, чтобы получить такие уровни значимости. Ввиду популярности этих таблиц числа 0,05 и 0,01 стали общепринятыми, хотя сейчас рекомендуется указывать точные P-значения. Важно подчеркнуть, что точное P-значение зависит не только от истинности нулевой гипотезы, но и ото всех других допущений, лежащих в основе статистической модели, например отсутствия систематической ошибки, независимости наблюдений и так далее.
Весь этот процесс известен как проверка значимости нулевой гипотезы (NHST – Null Hypothesis Significance Testing), и, как мы увидим далее, он стал источником серьезных разногласий. Но сначала посмотрим, как идеи Фишера работают на практике.
Использование теории вероятностей
Пожалуй, самый сложный в проверке значимости нулевой гипотезы третий шаг – определение распределения выбранной статистики при нулевой гипотезе. Мы всегда можем вернуться к методам компьютерного моделирования (как с тестом перестановки для данных о скрещивании рук на груди), однако намного удобнее работать с хвостами статистического критерия непосредственно с помощью теории вероятностей, как это делали Арбетнот (в простейшем случае) и Фишер (применивший гипергеометрическое распределение в эксперименте с чашками).
Часто мы используем приближения (аппроксимации), разработанные пионерами статистики. Например, около 1900 года Карл Пирсон разработал несколько критериев для проверки зависимости для таблиц сопряженности (таких как табл. 10.1). Из этого вырос классический критерий согласия χ2 (хи-квадрат).
Эти проверки включают вычисление ожидаемого числа событий, попадающих в каждую ячейку таблицы при условии справедливости нулевой гипотезы (отсутствие зависимости), после чего статистика хи-квадрат измеряет общее расхождение между наблюдаемыми и ожидаемыми значениями. В табл. 10.2 приведены ожидаемые значения в ячейках таблицы при условии нулевой гипотезы: например, ожидаемое количество женщин, кладущих сверху левую руку, равно общему числу женщин (14), умноженному на долю всех «леворуких» (22/54), и составляет 5,7.
Таблица 10.2
Наблюдаемое и ожидаемое (в скобках) число людей, кладущих сверху правую или левую руку, в зависимости от пола. Ожидаемые количества вычислены при нулевой гипотезе, согласно которой скрещивание рук не зависит от пола
Из табл. 10.2 видно, что наблюдаемое и ожидаемое число довольно близки, то есть реальные данные соответствуют тому, что мы могли бы ожидать при нулевой гипотезе. Статистика хи-квадрат – это общая мера расхождения между наблюдаемыми и ожидаемыми значениями (ее формула приводится в глоссарии), в данном случае она равна 0,02. Соответствующее P-значение (есть в таблицах или программах) составляет 0,90, что не противоречит нулевой гипотезе. Обнадеживает то, что оно фактически то же, что и «точный» критерий, основанный на гипергеометрическом распределении.