Байесовская теория невероятно эффективна. Во время Второй мировой войны британский математик Алан Тьюринг (1912–1954) использовал ее для расшифровки кода «Энигмы». Как известно, немецкие военные сообщения шифровались с помощью машины под названием «Энигма» – хитроумного устройства из шестеренок, роторов и электрических кабелей. После каждой буквы конфигурации, количество которых превышало один миллиард, менялись. Каждое утро шифровальщик задавал машине особые настройки, которые были запланированы на этот день. Затем он набирал текст, и «Энигма» выдавала на первый взгляд случайную последовательность букв, которую мог расшифровать только обладатель шифровального ключа. Всем остальным текст казался полностью лишенным какого-либо порядка. Однако гениальный Тьюринг обнаружил, что если две машины были настроены одним и тем же образом, то это приводило к небольшой погрешности в распределении букв, в результате чего возрастала вероятность того, что два сообщения будут похожи. Эта погрешность была настолько мала, что одной буквы было недостаточно, чтобы сделать какой-то точный вывод. Тем не менее, анализируя букву за буквой, Тьюринг смог доказать, что одна и та же конфигурация действительно использовалась дважды. С помощью устройства, которое назвали «бомбой» (большой тикающей электромеханической машины, которая стала прототипом наших компьютеров), он и его команда регулярно взламывали код «Энигмы».
Но какое отношение это имеет к живому мозгу? Что ж, похоже, точно так же рассуждает и наша кора больших полушарий37. Согласно этой теории, каждая область мозга формулирует одну или несколько гипотез и посылает соответствующие прогнозы в другие отделы. Таким образом, каждый модуль ограничивает предположения следующего, обмениваясь вероятностными предсказаниями о внешнем мире. Эти сигналы называются «нисходящими»: они зарождаются в областях высокого уровня – например, в лобных долях – и спускаются в сенсорные области более низкого уровня, такие как первичная зрительная кора. Теория предполагает, что эти сигналы выражают набор гипотез, которые наш мозг считает правдоподобными и хочет проверить.
В сенсорных областях нисходящие допущения вступают в контакт с «восходящей» информацией из внешнего мира – например, из сетчатки. Теория гласит: как только модель соприкасается с реальностью, мозг вычисляет сигнал ошибки – расхождение между тем, что предсказывала модель, и тем, что наблюдалось фактически. Байесовский алгоритм определяет, как использовать этот сигнал ошибки для изменения внутренней модели мира. Если ошибки нет, значит, модель правильная. В противном случае сигнал ошибки движется вверх по цепочке мозговых центров и по пути корректирует соответствующие параметры. В результате алгоритм относительно быстро приходит к ментальной модели, которая согласуется с внешним миром.
Согласно данному представлению о мозге, наши взрослые суждения объединяют два уровня: врожденные знания, присущие нам как виду (то, что сторонники байесовского подхода называют априорной вероятностью – наборы правдоподобных гипотез, унаследованных в ходе эволюции), и наш личный опыт (апостериорная вероятность – пересмотр этих гипотез на основе всех выводов, которые мы смогли сделать на протяжении жизни). Такое разделение труда ставит точку в классической дискуссии об относительной роли наследственности и окружающей среды: организация нашего мозга обеспечивает нас как мощным стартовым снаряжением, так и не менее мощной самообучающейся машиной. Очевидно, все знания должны быть основаны на этих двух компонентах: во-первых, на наборе априорных допущений, предшествующих любому взаимодействию с окружающей средой, а во-вторых, на способности сортировать эти допущения в соответствии с их апостериорной правдоподобностью после соприкосновения с реальными данными.
На сегодняшний день мы можем математически доказать, что байесовский подход – это лучший способ учиться. Это единственный способ выделить саму суть учебного эпизода и извлечь из него максимум. Для научения достаточно всего нескольких битов информации вроде подозрительных совпадений, которые Тьюринг обнаружил в коде «Энигмы». Как только система их обработает, она получит достаточно данных, чтобы опровергнуть одни теории и подтвердить другие.
Значит, вот как работает мозг? Неужели он с рождения может генерировать массы гипотез, из которых затем выбирает те, которые наилучшим образом согласуются с наблюдаемыми данными? Получается, младенцы с самого рождения действуют как умные и терпеливые ученые-статистики? Способны ли они извлечь максимум информации из каждого учебного опыта? Давайте посмотрим, что удалось выяснить о мозге маленьких детей в ходе экспериментальных исследований.
Часть II
Как учится наш мозг
Споры об относительной роли наследственности и окружающей среды не утихали на протяжении тысячелетий. Подобны ли младенцы tabula rasa – чистому листу или пустому сосуду, которые должен заполнить опыт? Уже в 400 году до нашей эры в своем труде «Государство» Платон отверг представление о том, что наш мозг приходит в мир, будучи лишенным всякого знания. С самого рождения, утверждал он, каждая душа наделена двумя сложными механизмами: силой знания и органом, с помощью которого мы можем учиться.
Как мы уже убедились, две тысячи лет спустя прогресс в сфере машинного обучения заставил ученых прийти к аналогичному выводу. Обучение протекает значительно эффективнее, если машина обладает двумя свойствами: широким пространством гипотез (набором ментальных моделей с множеством возможных настроек) и сложными алгоритмами, которые корректируют эти настройки в соответствии с данными, полученными из внешнего мира. Как однажды сказал один из моих друзей, в дискуссии о роли наследственности и окружающей среды мы недооцениваем и первое, и второе! Чтобы учиться, необходимы две структуры: обширный набор потенциальных моделей и эффективный алгоритм для их адаптации к реальности.
Искусственные нейронные сети делают это по-своему, доверяя представление ментальных моделей миллионам регулируемых связей. Хотя такие системы способны на быстрое и бессознательное распознавание образов или речи, репрезентация более абстрактных гипотез, таких как правила грамматики или логика математических операций, им недоступна.
Человеческий мозг, по всей видимости, функционирует иначе: наши знания множатся за счет комбинирования символов. Согласно данной точке зрения, мы появляемся на свет с огромным количеством возможных комбинаций потенциальных мыслей. Этот язык мышления, включающий абстрактные допущения и грамматические правила, присутствует в нас изначально и порождает необъятное царство гипотез. Теория байесовского мозга гласит: чтобы эти гипотезы проверить, наш мозг должен действовать, как ученый: собирать статистические данные, а затем использовать их для выбора наиболее подходящей генеративной модели.
Такой взгляд на научение может показаться нелогичным. Он предполагает, что мозг каждого маленького ребенка потенциально содержит все языки мира, все объекты, все лица и все инструменты, с которыми он когда-либо сможет столкнуться, а также все слова, факты и события, которые он когда-либо сможет запомнить. Комбинаторика мозга такова, что все эти объекты мысли потенциально уже есть в нем – наряду с соответствующими априорными вероятностями, а также способностью обновлять их на основе текущего опыта. Неужели ребенок в самом деле учится именно так?