Наше сотрудничество набирало обороты с некоторым трудом. Хэм объяснял это тем, что с библиотеками клонов, содержащих фрагменты генома H. Influenzae, имеются проблемы. Только спустя годы он признался, что его коллеги из Университета Джона Хопкинса относились ко мне с большим подозрением из-за нападок Уотсона и других критиков, и он опасался, что работа со мной повредит его репутации. И все-таки Хэм решил создать библиотеку генов Haemophilus. А у нас уже была подходящая компьютерная программа для сборки фрагментов. Хэм смоделировал некую имитацию сборки и считал возможным осуществить ее с примерно 25 тысячами участков. Сотрудники TIGR были полны энтузиазма, а вот изобретатель геномного ассемблера TIGR Грейнджер Саттон не был уверен, что его программа справится с задачей восстановления всей секвенированной ДНК обратно в геном, состоящий из 1,8 миллиона пар оснований. Грейнджер был не только молчалив, но и очень скромен: на самом деле, незадолго до этого его программа соединила в кластеры соответствующей ДНК более 100 тысяч последовательностей EST, и я был уверен, что его ассемблер справится с геномом H. Influenzae.
Мы приступили к оформлению гранта в НИЗ на тестирование нашего метода летом 1994 года. Естественно, я беспокоился, что по политическим причинам НИЗ откажется нас финансировать, а нам с Хэмом не терпелось приступить к работе. Исследования геномов дрожжей и E. coli финансировались уже много лет, и если бы мы «переиграли» их с помощью нашего метода, это стало бы началом очень важного этапа: прочитав код патогена, насчитывающего почти миллион пар оснований, мы бы впервые расшифровали геном свободноживущего организма. Вместо того, чтобы девять месяцев ждать весьма вероятного отказа от НИЗ, я принял решение перенаправить часть бюджета TIGR, около миллиона долларов, на исследование H. Influenzae. Я был уверен – этот риск оправдан.
Спустя четыре месяца мы получили последовательности 25 тысяч участков ДНК H. Influenzae, и команда Грейнджера взялась за дело. Через несколько недель из фрагментов было собрано несколько очень больших отрезков генома. Но оставались еще некоторые мелкие неучтенные фрагменты, и было не совсем ясно, как они встроены в хромосому.
Эти результаты не оправдали «великой геномной мечты», в которой все клоны ДНК генома выращивались в E. coli, секвенировались, затем собирались вместе с помощью компьютера, и, в конце концов, появлялась целиком вся хромосома. Но так происходит очень редко, и на то есть веские причины. Одна из них – зависимость роста чужеродных фрагментов ДНК от бактериальной среды E. coli. Некоторые ДНК явно токсичны для E. coli, и они удаляются биохимическим механизмом ее клеток. Рестриктазы используются бактериями для защиты от атак чужеродных ДНК, постоянно циркулирующих вокруг, например от вирусов.
Тем не менее недостающие куски геномной головоломки помогли мне понять, что карта генома может упорядочить последовательность и собранные фрагменты таким же образом, как картинка готовой головоломки помогает в ее сборке, даже если некоторые элементы отсутствуют. Подобно мореплавателям, генетики на протяжении многих лет использовали различные виды карт. Среди них – так называемые функциональные карты, или карты сцепления.
При воспроизведении гены материнского организма часто, но не всегда, передаются потомству. Чем дальше друг от друга расположены гены на хромосоме, тем меньше вероятность, что такая передача произойдет. Изучая частоту совместной передачи двух генов из поколения в поколение, ученые могут оценить, насколько близко на хромосоме они расположены, и создать карту сцепления. Впервые хромосома была картирована таким образом в начале 1990-х великим американцем Томасом Хантом Морганом при исследовании плодовой мушки. В его честь был назван участок гена, состоящий из около одного миллиона пар оснований генетического кода – сантиморган. О карте с таким разрешением генетики давно мечтали.
Другой вид генетических карт – физическая карта, основанная на поиске физического местоположения данного гена. Определяется, на какой хромосоме находится ген, с чем соседствует, и в каком именно участке хромосомы находится.
Но я не собирался создавать ни карту сцепления, ни физическую карту до секвенирования, как это сделали мои конкуренты. Команда Фреда Блаттнера потратила три года на разработку карты клона лямбды E. coli, и конечным результатом их работы стали 18 перекрывающихся килобаз клонов, подобных сцепляющимся друг с другом элементам игры «Лего», – грандиозный подвиг традиционного генетического исследования. Но у меня не было необходимости создавать такую карту. Каждый, кто хоть раз собирал пазл, знает, что можно продолжать сборку, не зная всей картинки, если идти от краев и других узнаваемых частей снизу вверх. В общем-то, последовательность ДНК сама является конечной физической картой, в которой все пары оснований генетического кода известны, так же как и точный порядок их расположения.
Не имея карты генома H. influenzae, мы разработали несколько принципиально новых методов организации больших совокупностей фрагментов для воссоздания генома. В одном случае для копирования ДНК из генома мы использовали технологию ПЦР. Два химических соединения, так называемых праймера, определяют начало и конец копируемого участка. Мы использовали праймеры, полученные из последовательностей вблизи концов собранных фрагментов. Затем мы попытались использовать ПЦР со всеми комбинациями праймеров с помощью зонда ПЦР от конца каждой последовательности, поочередно со всеми другими зондами ПЦР от концов всех остальных участков.
Получив из генома фрагмент ДНК, мы его быстро секвенировали. Затем мы соединяли в последовательность два других фрагмента. Проделывая одновременно несколько комбинаций, мы могли относительно быстро составить бóльшую часть генома.
Метод ПЦР не работает с каждой точкой геномного разрыва, поэтому я придумал совершенно новую методику секвенирования генома человека. Собрав с максимальной точностью, по специальной компьютерной программе полный комплект из 25 тысяч фрагментов генома Haemophilus, мы в результате получили большие наборы перекрывающихся фрагментов ДНК, так называемые «контиги» (от «contiguous» – «перекрывающиеся»). Чтобы использовать контиги для сборки генома, я планировал сравнивать оба конца нескольких сотен случайных клонов фага лямбда. Если конец одного клона лямбды соответствует одному контигу, а другой конец – другому контигу, то это означает, что мы автоматически определили правильный порядок и ориентацию этих контигов. Нам нужно было разработать новые методы секвенирования только концов клонов лямбды, но это можно было сделать довольно быстро. Получив всего несколько последовательностей со спаренными концами, мы уже могли соединить ансамбли ДНК в правильном порядке. Эта стратегия «секвенирования спаренных концов», предполагающая знание точного количества участков, разделяющих два элемента генетической головоломки, и стала ключом к секвенированию всего генома методом дробовика. Итак, секвенирование свелось всего лишь к заполнению нескольких разрывов во всем геноме бактерии, и мы убедились, что нашли оптимальную методику.
Вскоре должна была состояться конференция по секвенированию геномов, на которой я хотел представить наши результаты. Мы очень гордились достигнутыми успехами, и я с нетерпением ждал открытия конференции. Мы прошли долгий путь, начав с тестирования сумасбродной идеи, и теперь стояли на пороге прорыва, впервые в истории секвенировав геном свободноживущего организма.