Эта книга подчеркивает классические статистические проблемы малых выборок, систематические ошибки (в статистическом смысле) и невозможность обобщения на новые ситуации. Список задач для алгоритмов показывает, что хотя беспокоиться о величине выборки можно меньше ввиду наличия колоссальных объемов данных, другие проблемы имеют тенденцию усугубляться и мы сталкиваемся с дополнительной проблемой – объяснением для обоснования алгоритма. Огромные массивы данных только увеличивают проблемы при получении надежных выводов. Смирение при построении алгоритмов крайне важно.
Выводы
• Алгоритмы, построенные на основе данных, можно использовать в различных технологических приложениях для классификации и прогнозирования.
• Важно остерегаться переобучения алгоритма на тренировочных данных, когда, по сути, происходит подгонка не к сигналу, а к шуму.
• Алгоритмы можно оценивать по точности классификации, способности различать отдельные группы, а также общей точности прогнозирования.
• Сложным алгоритмам может не хватать прозрачности, поэтому, возможно, разумнее потерять немного в точности ради понимания.
• Использование алгоритмов и искусственного интеллекта сопряжено со многими трудностями, поэтому важно осознавать как мощь, так и ограничения методов машинного обучения.
Глава 7. Насколько мы можем быть уверены в происходящем? Оценки и интервалы
Сколько в Великобритании безработных?
В январе 2018 года новостной сайт «Би-би-си» объявил, что за три месяца до прошедшего ноября «уровень безработицы в Соединенном Королевстве снизился на 3 тысяч и составил 1,44 миллиона человек». О причинах такого сокращения много спорили, но, как ни странно, никто не усомнился в точности этой цифры. Однако при тщательной проверке Бюро национальной статистики Великобритании обнаружило, что погрешность этой величины составляет ±77 000. Иными словами, истинное изменение могло колебаться от снижения на 80 тысяч до увеличения на 74 тысячи. Таким образом, хотя журналисты и политики считали, что заявленное сокращение касается всей страны, фактически это была неточная оценка, основанная на опросе примерно 100 тысяч человек
[151]. Аналогично, когда Бюро статистики труда США сообщило о росте безработицы среди гражданского населения на 108 тысяч человек между декабрем 2017 и январем 2018 года, эта оценка опиралась на выборку примерно из 60 тысяч домохозяйств, а погрешность (которую опять же трудно определить) составляла ±300 000
[152],
[153].
Осознавать неопределенность крайне важно. Сделать какую-нибудь оценку способен кто угодно, но умение реалистично определить ее возможную погрешность – важнейший компонент статистики. Даже притом, что это затрагивает некоторые сложные понятия.
Предположим, мы собрали какие-то точные данные, возможно, с помощью хорошо спланированного опроса, и хотим обобщить результаты на изучаемую совокупность. Если мы проявляли осторожность и избегали внутренних смещений (скажем, обеспечив случайную выборку), то можем ожидать, что характеристики выборки будут близки к соответствующим характеристикам изучаемой совокупности.
Этот важный момент стоит уточнить. В хорошем исследовании мы ожидаем, что выборочное среднее будет близко к среднему всей совокупности, интерквартильный размах в выборке будет близок к интерквартильному размаху всей совокупности и так далее. В главе 3 мы рассматривали идею характеристик всей совокупности на примере данных о весе новорожденных, где назвали выборочное среднее статистикой, а среднее всей совокупности – параметром. В более строгих статистических текстах эти две величины обычно обозначают римскими и греческими буквами соответственно – скорее всего, в обреченной (вероятно) попытке избежать путаницы. Например, латинской буквой m часто обозначают выборочное среднее, а греческой буквой μ (мю) – среднее всей совокупности, буквой s – выборочное среднеквадратичное отклонение, а буквой σ (сигма) – среднеквадратичное отклонение всей совокупности.
Часто сообщают только итоговую статистику, и во многих случаях этого может быть достаточно. Например, мы видели, что большинство людей не знают, что показатели безработицы в США и Соединенном Королевстве основаны не на полном подсчете всех официально зарегистрированных безработных, а на масштабных опросах. Если такой опрос установил, что 7 % людей в выборке безработные, то национальные агентства и СМИ обычно преподносят это как факт, что 7 % всего населения страны безработные, вместо того чтобы признать, что 7 % – это всего лишь оценка. Выражаясь научно более точно, они просто путают выборочное среднее и среднее во всей совокупности.
Это может оказаться неважным при намерении просто представить широкую картину происходящего в стране, когда опрос масштабен и надежен. Но давайте возьмем такой пример: вы услышали, что опрошены только 100 человек, из которых семь сказали, что не имеют работы. Оценка составляет 7 %, но, вероятно, вряд ли вы сочли бы ее надежной и были бы счастливы, если бы она описывала всю совокупность. А если бы в опросе участвовала 1000 человек? А 100 тысяч? При достаточном масштабе опроса вы, возможно, увереннее согласитесь с тем, что выборочная оценка – достаточно хорошая характеристика всей совокупности. Размер выборки должен влиять на вашу уверенность в оценке, а чтобы делать статистические выводы, необходимо знать, насколько выборочная характеристика может отличаться от настоящей.
Количество сексуальных партнеров
Давайте вернемся к опросу Natsal, описанному в главе 2, в котором участников спрашивали, сколько сексуальных партнеров у них было в течение жизни. В качестве респондентов было привлечено 1125 женщин и 806 мужчин в возрасте 35–44 лет, так что это был солидный опрос. В табл. 2.2 представлены вычисленные выборочные характеристики, например медиана – 8 для мужчин и 5 для женщин. Поскольку мы знаем, что этот опрос базировался на правильной случайной выборке, вполне разумно предположить, что изучаемая совокупность соответствует целевой совокупности, то есть взрослому населению Великобритании. Главный вопрос здесь таков: насколько близки найденные статистики к тому, что мы обнаружили бы, опросив всех жителей страны?