Есть разные способы построения такого пространства. Один из них – обратиться к экспертам, как мы делаем, когда обращаемся к словарям. Другой способ исходит из простой предпосылки, что когда два слова связаны друг с другом, они чаще появляются в одном предложении, абзаце или документе, чем можно ожидать по чистой случайности. И этот простой метод, подкрепленный компьютерными приемами для обработки больших многомерных массивов информации, оказывается очень эффективным.
Когда мы создали это пространство, вопрос об истории интроспекции
[68] или любого другого понятия, которое кажется абстрактным и расплывчатым, стал конкретным и пригодным для количественного анализа. Все, что нужно, – взять текст, оцифровать его, направить поток слов в готовое пространство и измерить, сколько времени понадобится, чтобы добраться до понятия интроспекции. Слово «интроспекция» может оставаться невысказанным, но если слова вроде «я», «рассудок», «вина» и «чувство» встречаются часто, то текст будет близок к интроспекции. Так алгоритмы могут читать между строк.
С помощью этого метода мы могли проанализировать историю интроспекции в древнегреческой традиции, труды которой лучше всего сохранились в письменном виде. Мы взяли все книги, распределили их по времени создания, оценили близость каждого слова к интроспекции и рассчитали средние значения. Так мы смогли продемонстрировать, что со временем в старейших эпосах гомеровского цикла («Илиада» и «Одиссея») наблюдается медленная прогрессия. Потом, примерно за 600 лет до Христа, с развитием древнегреческой культуры частота встречаемости начинает быстро расти и увеличивается почти в пять раз по мере того, как сочинения становятся все ближе к интроспекции.
Преимущество использования объективной процедуры состоит в том, что мы можем проверить, справедливы ли полученные результаты для другой, совершенно независимой традиции. Поэтому мы повторили анализ для иудео-христианских сочинений и увидели точно такую же картину: медленную прогрессию в Ветхом Завете, где слова постепенно приближаются к интроспекции, и быстрый рост в текстах Нового Завета. Интроспекция достигает максимального значения в трудах Блаженного Августина, примерно через четыре столетия после Христа
[69].
Это очень важно, так как Блаженный Августин признан учеными как один из основателей интроспекции (некоторые даже считают его родоначальником современной психологии). Так что наш алгоритм, объективный, количественный и необыкновенно быстрый, уловил один из наиболее важных выводов в долгой истории исследований.
Превращение интуитивных поисков в объективную науку имеет далеко идущие последствия. Эту идею можно обобщить и применить в ряде других областей. Точно так же, как мы изучаем прошлое человеческого сознания, мы можем задать себе вопрос о будущем нашего сознания.
Могут ли слова, которые мы произносим сегодня, рассказать что-нибудь о состоянии наших умов в предстоящие месяцы или даже годы? Многие из нас носят датчики, определяющие генетические факторы, частоту сердцебиения или ритм дыхания в надежде, что эта информация поможет нам предотвращать болезни. Возможно, мониторинг и анализ слов, которые мы произносим, пишем или пересылаем в мобильных приложениях, способен заблаговременно предупредить нас о неполадках нашего разума.
Гильермо Сеччи в IBM Watson
[70] собрал группу психиатров и компьютерных специалистов от Нью-Йорка до Бразилии и Аргентины (юмористически названную Armada Brancaleone
[71]) для решения этой задачи.
Мы проанализировали речь тридцати четырех молодых людей с высоким риском развития шизофрении. Вопрос стоял о том, могут ли речевые характеристики предсказать наступление психоза в ближайшие три года.
Выяснилось, что в семантике языка недостаточно информации для предсказания будущей организации разума. В сущности, этого следовало ожидать. Одна из отличительных особенностей больных шизофренией – бессвязная речь. Таким образом, важнее не то, что эти люди говорят, а какони это говорят. Суть заключалась не столько в семантической близости произносимых слов, сколько в частоте и скорости «перескоков» с одного предмета на другой. Поэтому мы придумали критерий измерения, который назвали семантической связностью. Он оценивает устойчивость речи в рамках одной семантической темы.
В нашей группе из тридцати четырех участников алгоритм семантической связности смог почти со стопроцентной точностью предсказать, у кого разовьется психоз; такой результат недостижим для любого другого клинического метода. Пока это предварительное исследование сравнительно небольшой группы, которое предстоит воспроизвести в расширенном масштабе для оценки его реальной эффективности и выработки наиболее подходящих условий (устная или письменная речь, структурированное интервью или свободный разговор и так далее).
В 2016 году меня пригласили прочитать лекцию об этой работе на конференции TED. Во время подготовки к лекции я ярко вспомнил день, когда увидел длинную серию твитов от Поло, одного из моих студентов в Буэнос-Айресе, который в то время жил в Нью-Йорке. Эти сообщения казались необычными. Я не мог точно определить, в чем дело, так как в самом содержании не было ничего особенного. Но у меня возникло интуитивное ощущение: что-то не в порядке. Поэтому я позвонил Поло и узнал, что он болен.
Этот простой факт – что, читая между строк, можно благодаря словам ощутить чувства – оказался эффективным способом помощи. Мне нравится думать, что самый значимый аспект нашей работы – понимание того, как свести интуицию к алгоритму. Благодаря этому в будущем возможен совсем другой подход к психическому здоровью, основанный на автоматизированном и объективном количественном анализе слов, которые мы произносим и пишем.