Статья Беннетта получила Шнобелевскую премию в 2012 г. Эта награда присуждается за «достижения, которые сначала заставляют людей рассмеяться, а затем – задуматься».
На эту тему есть анекдот. Экспериментатор A говорит экспериментатору Б, что у него большие проблемы с воспроизведением результатов, полученных Б. «Неудивительно, – отвечает тот, – ведь я тоже не смог получить их первые 100 раз, когда проводил эксперимент».
Серхио Делла Сала и Роберто Кубелли
[124] приводят случай, который может стать еще одним примером p-хакинга: Рэндел Суонсон и его коллеги сообщили о поражении мозга у американских дипломатов в Гаване якобы в результате воздействия «неизвестного источника энергии, повлиявшего на слуховые и сенсорные процессы»
[125]. Суонсон и его команда пришли к выводу, что «эти люди, по-видимому, получили обширные повреждения клеток мозга, не вызванные травмой головы».
Но как они проверили свое предположение? Таблица, приложенная к статье Суонсона, описывает 37 результатов нейропсихологического теста, а в сноске к ней указано: «Жирный шрифт означает ненормальность, или менее 40-го процентиля». Кажется, это подразумевает, что любой, кто наберет менее 40-го процентиля распределения в любом тесте, может быть классифицирован как «ненормальный». Естественно, Делла Сала и Кубелли тоже интерпретировали это так. Но если бы все 37 тестов были идеально коррелированы (то есть все дали одинаковый результат для любого выбранного человека), это означало бы, что только 60 % населения получат оценку выше 40-го процентиля во всех тестах и, следовательно, будут классифицированы как нормальные. В то же время если бы результаты тестов не имели никакой корреляции между собой, то простой расчет показывает, что даже одного человека из 100 млн нельзя было классифицировать как нормального во всех тестах. На первый взгляд кажется, что Суонсон с коллегами сделали все возможное, чтобы доказать наличие повреждения мозга по меньшей мере у некоторых людей. Как отмечают Делла Сала и Кубелли, было бы правильнее применить существенно более строгий критерий ненормальности, скажем, 5 % вместо 40 %, однако ключевая проблема заключается в другом – в том, чтобы баллы ниже порогового значения в любом из 37 тестов в принципе не означали отклонения от нормы.
Кстати, замечу: все это совсем не означает, что вышеозначенные лица не страдали нарушениями функций мозга. Просто заключение о таких нарушениях почти наверняка можно сделать даже для группы здоровых людей.
Тем не менее иногда нам действительно требуется оценить широкий ряд аспектов набора данных. Например, в клиническом исследовании мы могли бы измерить 100 характеристик пациентов, сравнивая две группы, и попытаться узнать, отличаются ли они по какой-либо из них. (Действительно, если организуется дорогостоящее исследование, то имеет смысл измерить как можно больше вещей.)
К счастью, существуют инструменты для решения проблемы p-хакинга и снижения риска получения ложных и невоспроизводимых результатов при проведении множественных проверок гипотез. Первый такой метод появился в 1930-х гг. и был назван поправкой Бонферрони. Это способ корректировки p-значения каждой отдельно взятой проверки с учетом количества проведенных проверок. В частности, если мы добиваемся, чтобы у каждой из 100 проверок p-значение было на уровне 0,1 % (то есть шанс ошибочно отвергнуть истинную гипотезу равен 1 из 1000) вместо 2 %, то вероятность по крайней мере одного выявления значимости – если все гипотезы верны – составит всего 10 %, а не 87 %, как это было в примере выше. Проще говоря, если все 100 гипотез верны, то теперь существует лишь 10 %-ная вероятность того, что хотя бы одна из них будет отклонена как ложная. Это уже куда более приемлемо.
За последние три десятилетия был разработан целый ряд существенно более действенных инструментов решения проблемы множественных проверок. Многие из них являются расширенными и усовершенствованными вариантами метода Бонферрони, например контроль последовательности, в которой проводятся испытания. Но особенный прогресс в этом вопросе произошел благодаря работе Йоава Бенджамини и Йосефа Хохберга. Они переключили внимание с p-значения (то есть вероятности сделать неверный вывод, если гипотеза верна) на так называемую частоту ложных открытий. Это ожидаемая доля ошибок среди гипотез, помеченных как ложные. По всей видимости, такой подход эффективнее: он показывает, с какой вероятностью мы допускаем ошибку, когда признаем, что гипотеза неверна.
Помимо p-хакинга существует и другая, более фундаментальная причина неспособности воспроизвести результаты – потенциальные различия в условиях эксперимента. Отчеты об экспериментах, приведенные в научной литературе, традиционно должны быть краткими: этого требует стоимость публикации одной страницы в научных журналах (хотя сегодня, в эпоху интернета, такое ограничение уже не является необходимым), поэтому статьи редко описывают процедуры исследований в мельчайших деталях. К тому же, как мы уже говорили, сами исследования находятся на границе известного, и незначительные изменения условий эксперимента могут оказать большое влияние на его результаты.
Еще одной причиной ошибочных результатов является пагубная практика, получившая название HARKing, по первым буквам выражения «Hypothesizing After the Result is Known», или выдвижение гипотез, когда известны результаты проверки.
HARKing имеет место, когда гипотеза проверяется на тех же данных, с помощью которых была выдвинута. Если вы исследовали набор данных и обнаружили в нем нечто, что подтолкнуло вас к идее, некорректно использовать тот же набор данных для проверки ее истинности. Очевидно, что те же самые данные будут вызывать сомнения в гипотезе с очень низкой вероятностью! Например, если я заметил, что средний вес 1000 песчинок, взятых с одного пляжа, больше, чем средний вес 1000 песчинок, взятых с другого пляжа, я, конечно, могу предположить, что в целом песчинки на первом пляже более тяжелые, чем на втором, но я вряд ли смогу проверить свое предположение на тех же самых песчинках, поскольку они, естественно, его подтвердят. Идея должна проверяться на новом, независимом от первого наборе данных. Нам нужно собрать такие данные, которые еще не анализировались, то есть являющиеся темными данными в контексте гипотезы.
Обратите внимание, что просеивать, изучать и анализировать данные в поиске интересных свойств вполне нормально. Такие изыскания являются важным и, более того, фундаментальным методом выдвижения гипотез, генерирования идей и обнаружения скрытых ранее явлений. Однако те же самые данные нельзя использовать повторно, чтобы проверить, верны ли ваши идеи.
HARKing можно устранить, если требовать от исследователей публикации гипотез перед этапом сбора данных. Некоторые научные журналы уже предпринимают шаги в этом направлении, гарантируя публикацию статьи независимо от того, какие будут получены результаты, при условии, что гипотеза сформулирована заранее, а дизайн исследования и методология соответствуют строгим стандартам.