Можно было ожидать, что править балом будет стратегия TFT, наиболее успешно выступающая в смешанных группах стратегий. Однако в первых турах ситуация выглядела диаметрально противоположной, так как побеждали программы-обманщицы, а склонные к сотрудничеству стратегии почти вымирали. Средний выигрыш опускался до уровня, соответствующего взаимному обману. Но затем на каком-то этапе в общем поведении системы жалкие остатки приверженцев стратегии TFT вдруг начинали быстро нарастать, приобретая доминирующее положение (рис. 18.1). Сотрудничество становилось наиболее распространенной формой взаимодействия, а средний выигрыш резко увеличивался.
Превосходство
Число «поколений»
Рис. 18.1. Процесс «естественного отбора» в смешанной популяции стратегий игры в «Дилемму заключенного». Отбор осуществляется по результатам соревнования в каждом туре. В начале процесса явным преимуществом обладают программы, настроенные на обман, но затем происходит резкий поворот к сотрудничеству в духе стратегии TFT, которая быстро становится доминирующей. Этот процесс сопровождается повышением среднего выигрыша, поскольку стратегия TFT значительно повышает уровень сотрудничества между участниками соревнования.
Неожиданные и резкие изменения в поведении системы вновь заставляют вспомнить о фазовых переходах, хотя, конечно, не может быть и речи об эквивалентности описываемых процессов. Усиление роли стратегии TFT означает некий коллективный эффект, возникающий в результате множества взаимодействий между агентами, в качестве которых выступают отдельные программы. Игроки, настроенные на обман, действительно побеждают в начале соревнования, но затем их жесткое уклонение от сотрудничества перестает приносить пользу, так как они сталкиваются с очень похожими на самих себя соперниками. Сохранившиеся в системе даже немногочисленные остатки программ со стратегией TFT в таких условиях получают неожиданное преимущество и выигрывают. Они играют роль зародышей, позволяющих распространить элементы сотрудничества на всю популяцию
[148].
Но Новак и Зигмунд обнаружили, что триумф стратегии TFT преходящ, поскольку затем начинает проявляться ее основной недостаток — неспособность прощать даже случайные ошибки. Равновесие системы нарушается при воздействии шума ошибок, после чего борьба стратегий разгорается вновь до тех пор, пока стратегия TFT не будет вытеснена ее более толерантной сестрой, «великодушной» TFT (GTFT), которой и достается окончательная победа.
На основе полученных результатов Новак и Зигмунд пришли к выводу, «что стратегия TFT является скорее исходной точкой, а не целью эволюции, направленной к сотрудничеству»2. По их мнению, TFT остается оптимальной лишь до момента достижения сотрудничества в разнородной исходной популяции, после чего в системе должны развиться и другие, более «мягкие» стратегии, так что, возможно, модель «великодушной» TFT позднее должна развиться в стратегию полного прощения или забвения ошибок партнеров.
Все это звучит весьма приятно и обнадеживающе, но не стоит забывать, что в сообществе самых принципиальных и последовательных кооператоров наиболее эффективная и разумная стратегия — безусловный обман и безжалостное уничтожение доверчивых.
По большому счету сотрудничество является более эффективной стратегией для популяции в целом, однако сообщества кооператоров оказываются почти беззащитными перед агрессивно настроенными обманщиками, небольшая группа которых может внести хаос в сложившуюся кооперативную культуру. Стратегия TFT может препятствовать этому, поскольку безжалостно карает обманщиков, одновременно поощряя кооператоров, выполняя функции своеобразной полиции, силой навязывающей сотрудничество всем участникам игры. В обществе победивших кооператоров такие функции становятся излишними и, как мы видели ранее, даже обременительными для общества. Но если допустить некоторый уровень шума, т. е. неистребимый уровень обмана, тогда обществу следует смириться с наличием нескольких «твердолобых» приверженцев стратегии TFT, поскольку именно они будут поддерживать общую культуру сотрудничества.
Само по себе сотрудничество вовсе не гарантирует того, что в человеческом обществе принято называть торжеством справедливости. Более того, как показали эксперименты Новака и Зигмунда, стратегии сотрудничества далеко не всегда побеждают. В самых первых вариантах эволюционных программ игроки выбирали ходы, исходя из поведения партнера в предыдущем раунде. Следующим этапом развития самообучающихся систем такого типа стала упоминавшаяся сугубо оппортунистическая программа «Павлов», которая способна развиваться, анализируя не только действия партнера, но и свое собственное поведение в предыдущих раундах. Когда исследователи выставили свои первые программы против «Павлова», то потерпели поражение. «Павлов» плохо справляется с обманщиками и не способен подобно программе TFT наказывать обманщиков и «внедрять» сотрудничество, но он процветает в системах с низким уровнем шума и высокой склонностью к сотрудничеству. Новак и Зигмунд обнаружили, что в этом случае «Павлов» способен обыграть даже наиболее успешную и продвинутую программу GTFT (интересно, что обе эти программы в отличие от основного варианта TFT способны прощать партнерам ошибки). Позднее у программы «Павлов» выявилось еще одно преимущество: при введении возможности случайных мутаций стратегия GTFT еще более смягчается и смещается в сторону безусловных кооператоров, тогда как «Павлов» сохраняет способность к агрессивным действиям, так что в тех случаях, когда обман сулит выигрыш, он не задумываясь идет на него. Эту программу можно назвать «волком в овечьей шкуре», так как она демонстрирует склонность к сотрудничеству при жестком «правлении» программы TFT, но как только власть переходит к добросердечным безусловным кооператорам, она начинает бессовестно их обманывать. Если представить себе фантастические социальные структуры, создаваемые такими программами, то лозунгом «общества TFT» было бы: «Относись к другим так, как они относятся к тебе!», а лозунгом «общества Павлова»: «Не оставляй простакам ни малейшего шанса на спасение!»
История компьютерного соревнования, в котором победил «Павлов», выглядит поучительно, так как участвовавшие в турнире программы принимали решения на основе анализа действий обоих партнеров в предыдущем раунде, т. е. все они были сложнее программ, принимавших участие в первых турнирах. Очень интересно, что выбор общего направления развития программ вовсе не выглядит однозначным или предопределенным с самого начала, так как при повторах часто возникают альтернативные варианты развития событий. Показанная на рис. 18.2 история начинается с довольно бурного этапа развития сотрудничества, который завершается длительным периодом полного господства обманщиков. Затем примерно через 92 ООО поколений в программах вновь начинает преобладать стремление к сотрудничеству, которое на короткое время становится основной линией поведения. Затем программы очень резко перестают сотрудничать.