Почему бы не доверить нейросетям вообще все? Потому что крупным нужны слишком большие вычислительные мощности: «многоэтажные» алгоритмы требуют более громоздких расчетов, чем «одноэтажные». В ноябре 2016 года Google переключил на нейросети свою систему машинного перевода (и то – сначала для небольшого набора языков), но пользователи нуждаются в переводе текстов все-таки реже, чем обновляют ленту Facebook. А в мае 2017 года в блоге компании Twitter появилась новость, что теперь нейросети участвуют и в ранжировании твитов (то есть решают, какие показывать выше, а какие ниже). Ключевое слово здесь «участвуют»: они по-прежнему берут на себя только часть работы. Поэтому судьбу нашей френд-ленты по-прежнему решает более простая математика.
Стоит ли верить роботам: «исследование» и «эксплуатация»
Если нейросети такие умные, а линейные модели чуть-чуть им уступают в качестве, то почему бы не доверять им больше, чем собственному мозгу, от рождения склонному к ошибкам? Отвечает служба знакомств OkCupid.
Этот сервис, куда ежедневно заходит больше 1 млн человек, запустили еще в 2004 году. «Вы – больше, чем ваше селфи», – сообщает главная страница сайта. Его цель – помочь не тратить время на свидания с людьми, с которыми вам будет не о чем поговорить. Алгоритмы оценивают сходство, сравнивая ответы на вопросы длинной анкеты и, разумеется, историю поведения онлайн: как часто вы отвечаете и кому. Про каждого, с кем вы подумываете сходить на свидание, сообщается, на сколько процентов он вам подходит: на 94 % – идеально, на 30 % – подумайте дважды.
Представьте, что однажды вы видите рядом с чьей-то фотографией «90 %» – и удивляетесь, заглянув к нему в профиль. Допустим, этот кто-то слушает прогрессивного рэпера Икс и все свободное время уделяет занятиям кроссфитом, а сами вы любите романы Джейн Остин, кошек и теплый клетчатый плед. Но роботы со своей математикой решили, что вам непременно надо выпить вместе кофе – так почему бы и нет? И действительно, в кафе вы обнаруживаете, что искусственный интеллект и в самом деле знает про вас что-то такое, и вам стоит присмотреться друг к другу получше. Нейросети – тонкая вещь, за искусственным интеллектом – будущее.
На самом деле вы просто попали в выборку, на которой OkCupid проводил эксперимент. Вскоре после скандала с экспериментом Facebook в блоге OkCupid появилась запись «Да, мы ставим опыты на людях»
{98}. Некоторым своим пользователям сервис месяцами подсовывал «плохие пары» (с уровнем совпадения 30 %) под видом «хороших» (90 %). Что удивительно, пользователи довольно охотно поддавались на манипуляцию: чаще вступали в переписку и чаще обменивались телефонами – что, как правило, означало свидание в близком будущем.
Зачем обманывать людей? В машинном обучении есть известная дилемма «исследование – эксплуатация» (exploration/exploitation). «Эксплуатация» – это использовать лучшую информацию из имеющейся. Например, чтобы порекомендовать пользователю партнера, кино или музыку. Но тогда мы не будем знать, например, как пользователи реагируют на совершенно новые фильмы или альбомы, по которым статистика еще не собрана. В каком-то смысле все новое будет худшей рекомендацией, чем проверенное старое, – но если его никому не рекомендовать, мы так и не узнаем, кому оно подходит, а кому нет. Поэтому вторая стратегия, «исследование» – это раздавать некоторые рекомендации наобум и смотреть, кто на что среагирует.
Вторая причина рекомендовать наобум – смотреть, сильно ли отличаются в лучшую сторону умные алгоритмы от попугая, который вынимает клювом из шляпы фокусника бумажку со случайным предсказанием будущего. В таких сравнениях нужна контрольная группа – как при испытаниях лекарств, где половина подопытных обязательно получает таблетку-пустышку. И в качестве рекомендации от сервиса, который разрекламирован как территория сплошного искусственного интеллекта, кто-то неизбежно будет получать советы, вытянутые из шляпы вслепую.
Допустим, «пустышка» – одна рекомендация искусственного интеллекта из ста. Тогда, может быть, все не так и страшно? Логика обычно другая: если не повезет, то конкретно вы будете получать 100 % вредных советов. Или читать у себя в ленте 100 % записей друзей, отобранных экспериментаторами с умыслом. В том же блоге OkCupid можно найти статью с малопонятным техническим названием «Недостатки A/B-тестирования в соцсетях»
{99}, где объясняют: если пользователь оказался внутри эксперимента, проще всего его оттуда не выпускать, по крайней мере временно. И вот почему. Предположим, что сервис интересует реакция на два разных дизайна страницы – один, например, в красных тонах, другой – в синих. Если человек будет по очереди видеть у себя на экране то одно, то другое, то необъяснимая смена синего на красный введет его в ступор. Поэтому лучше сделать так, чтобы одни видели только синий сайт, а другие только красный. Ясно, что такой подход годится не только для экспериментов с дизайном.
В отличие от эксперимента Facebook, в случае OkCupid речь идет уже не об испорченном настроении на ближайшие пару дней. Свидание может иметь последствия длиной в десять, двадцать и даже тридцать лет – и на совести авторов эксперимента наверняка какое-то количество несостоявшихся свадеб людей, которые друг другу подходят, и несчастливых отношений среди тех, кого искусственный интеллект убедил, что они идеальная пара друг другу.
Плохо, если вас подводят алгоритмы сайта знакомств, но гораздо хуже, когда такой алгоритм определяет все ваши жизненные перспективы. Правительство Китая несколько лет назад запланировало запустить к 2020-му «систему социального кредита» на основе машинного обучения, которая вычисляет для каждого гражданина страны специальный рейтинг
{100}. Если он низкий, человеку запросто могут не продать билет на самолет и не выдать велосипед без залога. Совершенно неясно, какие конкретно алгоритмы будут за это отвечать – нейросети, линейные модели или решающие деревья, – но все их недостатки до 2020 года совершенно точно никуда не денутся. Пилотный проект уже работает в нескольких десятках городов.
С точки зрения разработчиков, было бы неразумно обойтись в такой сложной системе без контрольной группы хотя бы в 1 %. При населении страны в 1,4 млрд это будет примерно 14 млн человек, пораженных в правах по неизвестной для них причине.
Что с алгоритмами не так в целом
Кэти О’Нил защитила диссертацию по математике в Гарварде и много лет преподавала аспирантам алгебраическую теорию чисел (область математики, выросшую когда-то из попыток доказать Великую теорему Ферма). Но в нулевые лучших математиков стали переманивать из университетов финансисты – им нужны были математические модели, предсказывающие поведение рынка. Представители новой профессии стали называть себя «кванты» (квантовая механика здесь ни при чем: слово quant – сокращение от термина quantitative analyst, «количественный аналитик»). И университетская преподавательница ушла работать в хедж-фонд на Уолл-стрит.