Представьте, что вы отвечаете за маркетинг гибридного автомобиля и хотите сообщить об эффективности его топлива. Вы сажаете за руль водителя и получаете данные, что машина проезжает 129 километров на 4,5 литра топлива. Выглядит впечатляюще — получилось! Но, может, вам просто повезло? Ваш конкурент проводит более масштабное исследование, выпускает пять водителей на пяти автомобилях и получает, что на таком количестве топлива можно проехать 97 километров. Кто же прав? Вы оба! Предположим, ваш конкурент сообщил о полученных результатах следующим образом:
Тест 1: 93 км (на 4,5 л топлива)
Тест 2: 61 км (на 4,5 л топлива)
Тест 3: 111 км (на 4,5 л топлива)
Тест 4: 87 км (на 4,5 л топлива)
Тест 5: 129 км (на 4,5 л топлива)
Дорожные условия, температура окружающей среды, манера вождения — все это создает определенную вариабельность. Если бы вам повезло (а вашему конкуренту нет), ваш единственный водитель мог бы получить предельный результат, о котором вы бы потом радостно сообщили (и, конечно, если вы хотите только лучшее, то вы просто игнорируете результаты остальных тестов). Но если вам нужна правда, то необходима выборка побольше. Какая-нибудь независимая лаборатория, протестировавшая 50 разных заездов, могла бы обнаружить, что среднее арифметическое будет совершенно иным. В целом аномалии вероятнее в маленьких выборках. Большие выборки отражают то, что происходит в мире, гораздо точнее
[131]. Статистики называют это законом больших чисел.
Если вы посмотрите на количество детей, рожденных в какой-нибудь сельской больнице за месяц, и увидите, что 70 % новорожденных — это мальчики (по сравнению с 51 % в крупных городских больницах), то можете решить, что в сельских больницах происходит что-то странное. Может, и происходит, но это не доказательство, чтобы делать выводы. Мы снова имеем дело с маленькой выборкой. В крупной больнице могли заявить, что среди 100 новорожденных 51 был мужского пола, а в маленькой больнице могли сказать, что у них семь мальчиков из десяти новорожденных. Как и в случае с монеткой, описанном выше, среднее арифметическое в статистическом смысле, 50 на 50, чаще встречается в больших выборках.
А какой должна быть выборка, чтобы считаться достаточной? Это задачка для профессионального статистика, но существует несколько простых, но эффективных правил, которые вы можете использовать, чтобы самостоятельно разобраться в прочитанном. Для демографического исследования (например, предпочтения во время голосования, предпочтения в выборе зубной пасты и т. д.) в интернете можно найти калькулятор для расчета размера выборки. Чтобы определить частоту чего-либо (например, сколько новорожденных мужского пола, сколько раз в день человек в среднем говорит о том, что он голоден, и т. д.), нужно знать базовые данные о том, что вы исследуете. Если исследователь хотел узнать, сколько случаев рождения альбиносов было зарегистрировано в каком-то сообществе, изучил тысячу новорожденных и среди них ни одного альбиноса не нашел, было бы глупо делать вообще какие-либо выводы: альбиносы рождаются в одном случае из 17 тысяч. Выборка в тысячу случаев слишком мала, если учесть, как редко встречается исследуемый феномен. С другой стороны, если исследуется частота преждевременных родов, тысячи случаев было бы более чем достаточно, потому что такое случается в одном случае из девяти
[132].
Статистическая грамотность
Давайте представим себе уличную игру: в шляпе или корзине лежат три карты, у каждой из которых две стороны, — одна карта красного цвета с обеих сторон, одна белая с обеих сторон, а третья белого цвета с одной стороны и красного с другой
[133]. Мошенник вытягивает карту и показывает вам одну сторону — она красная. Он ставит пять долларов, что оборотная сторона тоже будет красной. Он хочет, чтобы вы думали, будто вероятность тут 50 на 50, — вы соглашаетесь, делаете ставку, думая, что оборотная сторона будет белой. Ход ваших мыслей может быть таким:
Он мне показывает красную сторону карты. То есть он вытянул либо красно-красную карту, либо красно-белую. Следовательно, оборотная сторона будет либо красная, либо белая — вероятность одинакова в обоих случаях. Могу себе позволить принять эту ставку, потому что, даже если я не выиграю в этот раз, то уж точно в следующий.
Отставим в стороне типичное заблуждение любого игрока — многие потеряли деньги, удваивая ставки в рулетку, а в результате их накрывало осознанием, что удача не саморегулируема, — мошенник как раз и рассчитывает на то, что вы придете к подобным, в корне неверным, выводам, и обычно начинает говорить быстрее, чтобы отвлечь вас. Попробуем представить себе происходящее визуально:
Вот эти три карты:
Если мошенник показывает вам красную сторону карты, то это может быть один из трех возможных вариантов. В двух из них другая сторона красная и только в одном случае белая. Поэтому шанс два из трех (а не один из двух), что если бы он показал вам красную сторону, вторая была бы тоже красной. Просто многие из нас забывают, что в случае с красно-красной картой он может демонстрировать любую из этих сторон. Если вы тут ничего не поняли, не переживайте — подобную ошибку допустил философ математики Готфрид Вильгельм Лейбниц, равно как и многие другие авторы недавно опубликованных учебников
[134]. Когда вы оцениваете заявления, в основе которых лежат вероятности, постарайтесь определить модель, по которой они строятся. Это порой бывает непросто, но если вам удастся понять всю сложность вероятности и всю ограниченность мышления, которую большинство из нас демонстрируют, оценивая их, вас будет не так-то просто обвести вокруг пальца. А что, если все вокруг вас соглашаются с какими-то в корне неверными заявлениями? Напоминает короля, одетого в изысканное платье, разве нет?