М. Ф.: Можете кратко описать, что вы сделали для разработки машинного зрения?
Ф. Л.: В 2000-х гг. стояла цель научить компьютеры распознавать объекты. Ведь это умение позволяет людям ориентироваться в мире, понимать, что вокруг происходит, рассказывать о мире друг другу и т. д. В то время основным инструментом в области компьютерного зрения было машинное обучение.
Я окончила аспирантуру, занялась преподаванием и увидела, что модели на базе машинного обучения не дают нужных результатов. В то время международное сообщество занималось задачей по распознаванию 20 классов объектов – этого было недостаточно.
Меня в то время очень интересовал процесс развития когнитивных навыков. Мозг любого ребенка за первые несколько лет жизни обрабатывает огромное количество данных. Дети активно экспериментируют с окружающим миром, наблюдают за ним и таким образом постигают его. Как раз тогда началось бурное развитие интернета и появился доступ к большим объемам данных.
Мне в голову пришла идея все фотографии из сети распределить в соответствии со значимыми для людей концепциями и промаркировать. Результатом стал проект ImageNet с 15 млн аннотированных изображений. Мы с коллегами открыли доступ к базе данных ImageNet всему миру и начали проводить международные конкурсы для исследователей.
Поворотным стал 2012 год. Победитель конкурса ImageNet создал алгоритм, скомбинировав нашу базу данных, вычислительные мощности графического процессора и сверточные нейронные сети. Джеффри Хинтон написал статью, которая для меня стала первым шагом на пути к распознаванию объектов.
М. Ф.: Вы продолжаете работать над этим проектом?
Ф. Л.: Следующие два года мы совершенствовали процесс распознавания. Если посмотреть на стадии развития речевых навыков, младенцы сначала лепечут, потом произносят отдельные слова, а затем начинают говорить предложениями. Моя двухлетняя дочь уже говорит предложениями, и становится заметным прогресс в ее миропонимании. Мы хотим научить компьютеры реагировать на демонстрируемые изображения предложениями, а не просто находить присутствующие там объекты.
Мы работали над этой проблемой несколько лет, применяя модели глубокого обучения. В 2015 г. я сделала на конференции TED 2015 доклад «Как мы учим компьютеры понимать изображения».
М. Ф.: Но ведь это сильно отличается от того, что происходит с детьми. Ребенок наблюдает. Даже когда взрослый показывает ему маркированное изображение, достаточно сделать это несколько, но не сто тысяч раз. Обучение человека на неструктурированных, непрерывно поступающих данных и обучение с учителем ИИ-системы не получается поставить на одну плоскость.
Ф. Л.: Вы правильно поняли суть проблемы. Тот успех нейронных сетей и глубокого обучения, которого мы уже добились, это лишь небольшая часть возможностей интеллекта.
В этом году на конференции Google I/O я снова использовала в качестве примера свою дочь. Пару месяцев назад с помощью радионяни я наблюдала, как она ищет способы выбраться из кроватки. Я видела, как она открыла свой спальный мешок, хотя он был специально сшит таким образом, чтобы ребенок не мог из него выбраться. Современные ИИ-системы не обладают такого рода скоординированным интеллектом, отвечающим за визуально-моторные навыки, планирование, мышление, эмоции, намерения и настойчивость. Так что нам предстоит еще много работы.
М. Ф.: Возможен ли прорыв, который позволит компьютерам учиться тем же способом, что и дети?
Ф. Л.: Над этим работает множество людей. В SEIL мы пытаемся заставить ИИ-системы обучаться путем подражания, что куда естественнее обучения с учителем. Поэтому начинаем применять алгоритмы обучения с подкреплением без прямого вознаграждения (inverse reinforcement learning, IRL) и алгоритмы нейропрограммирования. Этими исследованиями занимаются компания DeepMind, Google, мы и MIT.
Я не могу назвать дату возможного прорыва, потому что зачастую это дело счастливой случайности, когда внезапно совпадает множество различных факторов. Но надеюсь, что благодаря глобальным инвестициям в эту сферу все произойдет еще при нашей жизни.
М. Ф.: Выступая с презентациями, я всегда подчеркиваю, что со временем ИИ и машинное обучение станут вещами общего пользования, почти как электричество. И первым шагом к этому, на мой взгляд, является добавление ИИ в облачные сервисы. Как глава отдела облачных вычислений Google вы со мной согласны?
Ф. Л.: Именно поэтому я и оказалась в Google. У университетских профессоров, к счастью, есть возможность раз в семь или восемь лет брать творческий отпуск, и два года назад я присоединилась к индустрии, которая демократизирует технологии ИИ. Облако – самая лучшая и большая платформа для распространения технологий. Ведь сервисы Google Cloud в любой момент расширяют возможности миллиардов людей.
Например, мы занимаемся автоматическим обучением машин (AutoML). Это уникальный продукт, позволяющий неспециалистам пользоваться возможностями ИИ. Многим компаниям нужны индивидуальные модели: журналу National Geographic – модель для распознавания диких животных, а фирмам сельскохозяйственной отрасли – модель для распознавания овощей и фруктов. При этом у сотрудников этих фирм нет опыта в работе с ИИ, и они не могут самостоятельно выбрать наиболее подходящий алгоритм и оптимальные параметры.
М. Ф.: Похоже, что доступность машинного обучения, которое обеспечивает AutoML, может привести к появлению множества приложений ИИ, созданных разными людьми с разными целями.
Ф. Л.: Именно так! В своих презентациях я использую в качестве аналогии кембрийский взрыв.
М. Ф.: Сегодня нейронным сетям и глубокому обучению уделяется огромное внимание. Как вы считаете, это именно та технология, которая приведет к развитию ИИ? Или пора искать новые пути?
Ф. Л.: Если посмотреть на прогресс науки в целом, вы увидите, что в прошлом то и дело приходилось отказываться от каких-то вещей и даже отступать назад. Невозможно быть уверенными, что не появится новая, более совершенная методика. Это особенно верно для такой молодой сферы, как ИИ. Ведь она существует всего 16 лет.
М. Ф.: Какие проекты сейчас можно причислить к передовым исследованиям в области ИИ?
Ф. Л.: Моя лаборатория сейчас работает над проектом Visual Genome. В ImageNet связаны изображения и метки, тогда как в реальности существуют взаимосвязи между объектами, а также между зрением и языком. Поэтому проект Visual Genome можно назвать следующим шагом после ImageNet. Мы ищем связь между визуальным миром и человеческим языком.
Еще одно направление, в котором ИИ принесет пользу, это здравоохранение. Человеческий фактор сильно влияет на медицину: низкое качество обслуживания, отсутствие контроля, ошибки, высокие затраты, предвзятое отношение к пожилым людям. По этой теме вообще крайне мало доступной информации. Около пяти лет назад мы поняли, что технология на базе ИИ, предназначенная для внедрения беспилотных автомобилей, подходит для оказания медицинской помощи. Систему с датчиками для сбора информации об обстановке в больницах и настроении пациентов, алгоритмами для анализа собранных данных и обратной связи мы внедряем в Детской больнице Люсиль Паккард в Стэнфорде, Медицинском центре Intermountain в Юте и домах престарелых в Сан-Франциско.