Примерно в возрасте одиннадцати-двенадцати лет, будучи заключенным в концентрационном лагере Рьекро (близ Манда), я открыл для себя игры с циркулем. Я был буквально очарован розетками, которые получаются, когда делишь круг на шесть равных частей, поворачивая циркуль шесть раз по окружности и возвращаясь прямиком к исходной точке. Это экспериментальное наблюдение убедило меня, что длина окружности ровно в шесть раз больше радиуса. Когда позже… я увидел в учебнике, что связь намного сложнее, что у нас есть L = 2πR и что π = 3,14… я был уверен, что книга не права, что ее авторы… должно быть, ничего не знали об этом простом упражнении с циркулем, которое ясно показывает, что π = 3.
Уверенность ребенка в правильности своих выводов, вера в собственные способности и отказ безоговорочно принимать то, что говорят в школе или написано в учебнике, дорогого стоят. И все же эту уверенность никогда не поощряют.
Многие увидят в только что приведенном мною опыте пример ребяческой дерзости, позже вынужденной склониться перед новым знанием, – ситуация, граничащая с нелепостью. Однако в то время у меня не было чувства разочарования или нелепости, лишь ощущение того, что я совершил подлинное открытие… Я открыл ошибку282.
Какое невероятное откровение и какой урок смирения – подумать только, один из величайших математиков мира признает, что совершил колоссальную ошибку, полагая, будто число Пи равно трем… И все же в одном Гротендик был совершенно прав: ошибки играют ключевую роль в научении. Совершать ошибки – самый естественный способ учиться. Эти два термина практически синонимичны, ибо каждая ошибка дает возможность узнать нечто новое.
Французский мультфильм «Шадоки», популярный во времена моего детства, возвел эту концепцию в ранг общего принципа: «У того, кто не оставляет попыток, рано или поздно все получится… Иными словами, чем больше неудач, тем больше шансов на успех!» Шансы на то, что ракета, которую пытались запустить Шадоки, взлетит, не превышали один на миллион, а потому они быстренько провалили первые 999 999 попыток, но в конце концов все-таки добились своего.
Если серьезно, прогресс невозможен без неудач. Со временем количество ошибок постепенно уменьшается – разумеется, при условии, что мы получаем обратную связь, которая подсказывает нам, как улучшить результат. Вот почему обратная связь служит третьим столпом научения и одним из наиболее важных параметров в образовании: именно от качества и точности получаемой обратной связи зависит, насколько быстро мы учимся283.
Удивление – движущая сила научения
Помните алгоритмы научения из первой главы, которые позволяют охотнику отрегулировать оптический прицел ружья, а искусственной нейронной сети – настроить скрытые веса? Идея проста: сначала вы пробуете, даже если попытка заведомо окончится провалом, а затем, исходя из величины ошибки, вычисляете, как улучшить результат в следующий раз. Так, охотник целится, стреляет, оценивает, насколько сильно он промахнулся, и использует эту обратную связь для корректировки следующего выстрела. Именно так снайперы пристреливают свои винтовки – и именно так, только в большем масштабе, искусственные нейронные сети корректируют миллионы параметров, определяющих их внутренние модели внешнего мира.
Мозг работает так же? Уже в 1970-х годах появились первые данные в пользу этой теории
[32]. Два американских исследователя, Роберт Рескорла и Аллан Вагнер, выдвинули следующую гипотезу: мозг учится только в том случае, если замечает разрыв между тем, что он прогнозирует, и тем, что он получает в итоге. Никакое научение невозможно без сигнала ошибки: «Организмы учатся только тогда, когда события не совпадают с их ожиданиями»284. Другими словами, удивление является одной из фундаментальных движущих сил научения.
Теория Рескорлы—Вагнера прекрасно объясняет детали такой парадигмы научения, как «классическое обусловливание». Все слышали о собаке Павлова. В павловских экспериментах по обусловливанию собака слышит звон колокольчика, который изначально является нейтральным и неэффективным стимулом. Однако после многократного сочетания с пищей тот же колокольчик вызывает условный рефлекс. Всякий раз, когда собака слышит колокольчик, у нее начинается обильное слюноотделение: она усвоила, что этот звук систематически предшествует появлению пищи. Как теория объясняет это явление? Правило Рескорлы—Вагнера предполагает, что мозг использует сенсорные сигналы (ощущения, генерируемые колокольчиком) для прогнозирования вероятности последующего стимула (пищи). Система работает следующим образом.
● Мозг генерирует прогноз, вычисляя взвешенную сумму поступающих сенсорных сигналов.
● Мозг вычисляет разницу между этим прогнозом и реальным стимулом, который он получил; ошибка прогноза, фундаментальное понятие теории, определяет степень неожиданности, ассоциированную с каждым стимулом.
● Мозг использует неожиданный сигнал для коррекции внутренней репрезентации: внутренняя модель изменяется прямо пропорционально силе стимула и величине ошибки прогнозирования. Правило гарантирует, что следующее предсказание будет ближе к реальности.
Данная теория уже содержит все семена наших трех столпов обучения: научение происходит только в том случае, если мозг отбирает соответствующие сенсорные сигналы (внимание), использует их для формулирования прогноза (активное вовлечение) и оценивает точность прогноза (обратная связь).
Уравнение, предложенное Рескорлой и Вагнером в 1972 году, оказалось на удивление прозорливым. Оно практически идентично «дельта-правилу», которое позже применялось в искусственных нейронных сетях. Оба представляли собой упрощенные версии правила обратного распространения ошибки, которое сегодня используется практически во всех современных системах обучения с учителем (сети дается эксплицитная обратная связь относительно верного ответа). Аналогичное уравнение до сих пор работает и в обучении с подкреплением (сети просто говорят, насколько она ошиблась): система прогнозирует вознаграждение и на основе разницы между своим прогнозом и фактическим вознаграждением обновляет внутреннюю репрезентацию.
Следовательно, можно утверждать, что современные кремниевые машины опираются на уравнения, непосредственно вдохновленные нейробиологией. Как мы видели выше, человеческий мозг идет еще дальше: чтобы извлечь максимум информации из каждого учебного эпизода, он использует язык мышления и статистические модели, гораздо более совершенные, чем современные искусственные нейросети. Однако основная идея Рескорлы и Вагнера остается верной: мозг пытается предсказать входные сигналы, которые он получает, и корректирует эти предсказания в соответствии со степенью неожиданности, маловероятности или ошибки. Учиться – значит уменьшать непредсказуемость.