Но такие предостережения легко забываются. Как только какая-то модель принимается (и особенно тогда, когда она уходит из рук создателей, понимающих ее ограничения), она может превратиться в своего рода оракула. Финансовый кризис 2007–2008 годов в значительной степени был вызван чрезмерным доверием к сложным финансовым моделям, которые использовались для определения рисков, например ипотечных пакетов. Эти модели предполагали лишь умеренную корреляцию между неисполнением обязательств по ипотеке и успешно работали, пока рынок недвижимости процветал. Но когда условия изменились и возникли проблемы с выплатами, оказалось, что проблемы начались по всем фронтам: модели сильно недооценили риски из-за корреляций, которые оказались намного выше, чем предполагалось. Руководители просто не поняли хрупкости фундамента, на котором строились эти модели, упустив из виду тот факт, что модели всего лишь упрощение реального мира, то есть карты, а не территории. Результатом стал один из тяжелейших мировых кризисов в истории.
Выводы
• Регрессионные модели обеспечивают математическое представление отношений между набором независимых (объясняющих) переменных и зависимой переменной (переменной отклика).
• Коэффициенты в регрессионной модели показывают, какое изменение в отклике мы можем ожидать при изменении независимой переменной.
• Регресс к среднему наблюдается, когда отклонения возвращаются к долговременному среднему значению, поскольку такие выбросы были чисто случайными.
• Регрессионные модели могут включать различные виды зависимой и независимых переменных, а также нелинейные взаимосвязи.
• При интерпретации моделей нужно быть осторожным. Помните: «Все модели неверны, но некоторые полезны».
Глава 6. Алгоритмы, аналитика и прогнозирование
До сих пор акцент в этой книге делался на том, как статистика может помочь нам лучше понять, как устроен мир, будь то потенциальный вред от поедания сэндвичей с беконом или взаимосвязь между ростом родителей и их детей. По сути, это научное исследование, где выясняется, что происходит на самом деле, а что (если пользоваться терминами, введенными в предыдущей главе) – просто остаточная ошибка, к которой нужно относиться как к неизбежной изменчивости, поскольку ее нельзя смоделировать.
Однако основные идеи статистической науки сохраняются, когда мы пытаемся решить не научную, а практическую задачу. Желание найти сигнал в шуме уместно и тогда, когда нам просто нужен метод для конкретного случая в повседневной жизни. Тема этой главы – решение практических задач с помощью имеющихся данных, то есть использование какого-то алгоритма, механической формулы, которая будет автоматически выдавать ответ для каждого нового случая, возникающего без или с минимальным вмешательством человека. Фактически это уже не наука, а «технология».
У такого алгоритма есть два широких класса задач:
• Классификация (также известна как разделение, контролируемое обучение, обучение с учителем): сообщить, с какой ситуацией мы столкнулись. Например, пристрастия и предубеждения онлайн-покупателя или является ли объект в поле зрения робота ребенком или собакой.
• Прогнозирование: сообщить, что будет дальше. Например, какая погода будет на следующей неделе, какая может быть завтра цена акций, какие продукты может купить этот клиент и не выбежит ли тот ребенок перед нашим самоуправляемым автомобилем.
Хотя эти задачи и различаются в том смысле, что одна касается настоящего, а вторая – будущего, обе имеют одинаковую природу: взять набор наблюдений, относящихся к текущей ситуации, и сделать соответствующее заключение. Такой метод называется предсказательной аналитикой, но здесь мы уже вторгаемся на территорию искусственного интеллекта (ИИ), когда воплощенные в машинах алгоритмы используются либо для выполнения задач, которые обычно требуют участия человека, либо для предоставления людям советов экспертного уровня.
В узком смысле термин ИИ относится к системам, которые могут выполнять строго предписанные задачи, причем есть ряд крайне успешных примеров, основанных на машинном обучении, которые включают разработку алгоритмов посредством статистического анализа больших массивов данных, взятых из прошлого. Среди заметных успехов – системы распознавания речи, встроенные в телефоны, планшеты и компьютеры; программы типа Google Translate, которые не знакомы с грамматикой, зато научились подбирать тексты из необъятного опубликованного архива; программное обеспечение для компьютерного зрения, использующее прошлые изображения, чтобы «научиться» распознавать, например, лица на фотографиях или другие автомобили, попадающие в поле зрения самоуправляемого автомобиля. Наблюдается значительный прогресс и в системах, играющих в различные игры, таких как программное обеспечение DeepMind. Они изучают правила компьютерных игр и становятся опытными игроками, обыгрывающими чемпионов мира по шахматам и «Го», пока компьютер IBM Watson обыграл людей в викторине, где требуются общие знания. Эти системы начинались не с попыток закодировать человеческий опыт и знания, а с огромного числа примеров, и обучались методом проб и ошибок, как обычный ребенок, играя в игры сам с собой.
Опять же, подчеркнем, что это технологические системы, использующие прошлые данные для ответа на возникающие практические вопросы, а не научные системы, которые стремятся понять, как устроен мир: их следует оценивать исключительно по тому, насколько хорошо они выполняют ограниченную задачу, и, хотя форма изученных алгоритмов может натолкнуть на какие-то идеи, от них не ждут воображения или сверхчеловеческих способностей в обычной жизни. Здесь требуется ИИ «общего назначения», который выходит за рамки этой книги и (по крайней мере на данный момент) за рамки возможностей компьютеров.
С тех пор как в 1690-х годах Эдмунд Галлей вывел формулы для расчета страховых взносов и платежей, статистика имеет дело с алгоритмами, помогающими в принятии решений. Современное развитие науки о данных продолжает эту традицию, однако за последние годы масштабы собираемых данных и разрабатываемых продуктов изменились: появились так называемые большие данные.
Данные могут быть «большими» в двух разных смыслах. Во-первых, по числу примеров в базе данных: это могут быть отдельные люди, звезды в небе, школы, поездки на автомобиле или посты в социальных сетях. Количество примеров часто обозначают буквой n, и в начале моей деятельности n считалось «большим», когда превосходило 100. Но сегодня данные могут включать миллионы и миллиарды случаев.
Второй смысл термина «большие данные» – это измерение в каждом примере многих характеристик или признаков. Они часто обозначаются буквой p (возможно, от слова parameter). Если снова обратиться ко временам моей статистической юности, то обычно p не превышало 10 – мы знали не так много пунктов в медицинской карте отдельного человека. Но с получением доступа к миллионам генов человека проблемы геномики оказались в малых значениях n, но больших значениях p, то есть в наличии колоссального количества информации об относительно небольшом числе случаев.