Биологическое образование в МФТИ
Rambler's Top100
Физтех-ПорталСайт ФМХФСайт ФБМФРасписание экзаменовЭлектричкиФорум ФМБФ
 Поиск
 Разделы сайта

 Голосование
Как вы оцениваете семинары по биологии, которые читаются студентам 1 курса?

Все отлично, надо оставить как есть
Все зависит от семинариста
Слишком много математики
На семинарах надо разбирать то, что осталось непонятным с лекций
Семинары вообще не нужны, достаточно лекций
Затрудняюсь ответить
Другое (оставьте сообщение на форуме факультета)

Результаты
Архив голосований
 Материалы сервера
Версия для печати
Опубликовано: 04.04.2008

Лекция №19. Геномика


Геномика –  комплексная наука, изучающая геномы.

Разделы геномики:

  1. структурная геномика – содержание и организация геномной информации;
  2. функциональная геномика – реализация  информации, записанной в геноме, от гена – к признаку;
  3. сравнительная геномика – сравнительные исследования содержания и организации геномов разных организмов;

Все эти разделы геномики вносят вклад в фундаментальную биологию (индивидуальное развитие, эволюция), здравоохранение, сельское хозяйство и биотехнологию.

Итог структурной геномики – получение последовательности нуклеотидов (сиквенс от англ. sequence), которая представляла бы полностью каждую из хромосом с первого нуклеотида до последнего.

Для того, чтобы получить такой сиквенс, сегодня приходится определять последовательность нуклеотидов в достаточно коротких отрезках ДНК, длиной примерно 1000 позиций. В геноме человека 3 миллиарда позиций, значит, его надо разбить на куски, которые и будут «читаться». Затем нужно восстановить единую последовательность нуклеотидов из сравнения отдельных прочтенных отрезков текста. Восстановление основано на сравнении определенных последовательностей и выявлении в них перекрывающихся (идентичных) участков текста. Длина участка перекрывания должна превышать длину последовательности, которая может встретиться в данном геноме по причинам случайного характера. Например, в геноме человека 3*109 п.н. случайно может встретится последовательность длиной 15 нуклеотидов – поскольку в каждой позиции может находится один из четырех нуклеотидов, то вероятность того, что заданные нуклеотиды окажутся в 15 позициях подряд  415 =230 что примерно равно 109. То есть в отрезке длиной 109 позиций заданная 15-нуклеотидная последовательность может встретиться 1 раз по причинам случайного характера.  

Но дело в том, что в ДНК нуклеотиды расположены не случайно и это является проблемой для восстановления последовательности из перекрывания отрезков. Если две последовательности из 1000 нуклеотидов перекрываются на 20 нуклеотидов или сто – это еще ничего не значит, так как весь этот фрагмент из 1000 нуклеотидов может быть несколько раз повторен в геноме. Поэтому нужно было сначала расставить вдоль генома фрагменты, а уже потом выявлять их перекрывание на основе сиквенса. Таков был путь мирового сообщества при секвенировании генома человека. (секвенированием в русскоязычной литературе называют процесс определения последовательности нуклеотидов. Этот термин также является калькой с английского названия).

Как это можно было сделать? Нужно было поставить какие-нибудь «буйки» в геноме человека, какой участок стоит за каким. Последовательность таких участков и составляет карту генома.  Первой такой картой стала карта генетическая. Она показана на рисунке слева.

Рядом показана окрашенная хромосома, на которой видны поперечные полоски. Поперечная окрашенность индивидуальна для каждой хромосомы, каждая полоска имеет собственный номер, который представляет собой "адрес" данного участка на хромосоме. Ясно, что в каждом таком участке миллионы пар нуклеотидов, последовательность которых мы должны определить. Были получены полиморфные маркеры, то есть найдены такие участки хромосомы, которые у разных людей (или на разных хромосомах одного человека)  содержат неидентичные последовательности нуклеотидов. В прошлой лекции упоминалось, что для генетической карты с интервалом в 10% рекомбинации нужно 300 равноудаленных маркеров. Эти маркеры нужны для различения одной хромосомы от другой в данном локусе.

В основе детекции ДНК маркеров лежит метод амплификации (размножения) фрагментов  ДНК in vitro с точностью до нуклеотида методом полимеразной цепной реакции (ПЦР). Методом ПЦР можно синтезировать фрагмент ДНК in vitro (в пробирке) и получить его как химически чистое вещество. Для синтеза используются короткие синтетические отрезки ДНК, называемые праймерами (затравка для синтеза). С 3’-конца праймера начинается синтез фрагмента ДНК по матричной нити, на которую он отжигается (прилипает при комплементарном взаимодействии между нуклеотидами праймера и матрицы). За один цикл достройки ДНК из двух нитей ДНК получили 4. В следующем цикле из 4 нитей получится уже 8  и т.д. Каждый цикл занимает несколько минут. За 30 циклов ПЦР целевой фрагмент размножится в 1 миллиард раз, что позволяет наблюдать фрагмент (после окраски). Время проведения каждого этапа ПЦР в будущем сократится на 2-3 порядка, таким образом, что каждый цикл будет проводиться за секунды.

Для различения папиной и маминой хромосом использовали так называемые STR-маркеры (Short Tandem Repeat), состоящие из одинаковых звеньев, чаще всего звено состояло из пары нуклеотидов ЦА. То есть нашли места в геноме, где повторялись эти вкрапленные звенья. Допустим в папиной хромосоме в фрагменте из 100 пар нуклеотидов была вставка из 20 звеньев, а в таком же месте маминой хромосомы было вставлено  22 звена.  Этот фрагмент ДНК размножили in vitro, с точностью до нуклеотида методом полимеразной цепной реакции (ПЦР). Длина этих фрагментов будет у папы 100+20*2=140, а у мамы – 100+22*2=144. При фракционировании образованных фрагментов в геле под действием постоянного тока (электрофорез) мы можем провести разделение фрагментов по размеру. Чем тяжелее фрагмент, тем меньше его электрофоретическая подвижность и тем ближе к старту он будет находиться. Если у родителей ребенка длины фрагментов составляли (как указано в примере выше) 140 и 144 п.н., то и у ребенка будут эти полоски присутствовать.

 Описанный подход применяется не только в фундаментальных исследованиях , но и в практике идентификации личности при судебно-медицинской экспертизе. Допустим данный локус в хромосоме может находиться в одном из 10 альтернативных состояний. (Эти состояния, аллели, различимы по их электрофоретической подвижности). Эти состояния различают 10 хромосом или людей с такими хромосомами. Если мы возьмем в анализ еще один локус (на другой хромосоме) с такими же характеристиками, то по этому локусу мы тоже различим 10 хромосом или людей. А по сочетанию состояний в этих двух локусах различимы 10х10=102 хромосом. Пять таких локусов позволят различить 105 хромосом. А поскольку хромосом у каждого из нас по паре, то сочетания аллелей этих пяти локусов дают 105 х105 = 1010 вариантов. Это число вариантов больше, чем число людей на земле. На практике при идентификации используют набор аллелей из 13 локусов, хотя и пяти как мы видим, может быть волне достаточно.

Генетическая карта была первой картой генома человека, на основе которой строилась дальнейшая работа по картированию. Эту карту соотнесли с физической картой, показывающей порядок следования клонированных фрагментов ДНК вдоль генома (см. рисунок 1 справа).

Физические карты генома часто представлены наборами фрагментов ДНК, клонированные в векторных молекулах (рекомбинантных ДНК),  упорядоченно расположенных относительно друг друга. Такой набор непрерывно перекрывающихся фрагментов ДНК называется контиг. Для того чтобы выявить перекрывание клонированных фрагментов ДНК и понадобилась ранее установленная карта генетических маркеров. Перекрывание устанавливалось между «большими» молекулами ДНК, содержащими примерно 106 пар нуклеотидов, которые были клонированы в искусственных хромосомах дрожжей (YAC-клоны, сокращение от Yeast Artificial Chromosome). Искусственные, потому что у них удалили основную часть собственно дрожжевой ДНК и вставили человеческие фрагменты ДНК. Такие конструкции способны реплицироваться в клетках дрожжей. Размер хромосом дрожжей как раз примерно 1-2 миллиона пар нуклеотидов.

Как устанавливали перекрывание клонированных фрагментов ДНК? У нас есть YAC-клон №1 с протяженным фрагментом клонированной ДНК, а в нем, предположим, обнаружен и маркер А и маркер В, для которых из генетических данных  известно, что они соседние на карте. В YAC-клоне №2 уже нет маркера А,  а есть маркеры В и С, причем также известно из генетической карты что В и С – соседи. В клоне №3 есть маркеры С и D.  Сопоставление данных по присутствию генетических маркеров А, В, С и D в YAC-клонах показывает что они перекрываются  в последовательности YAC №1, №2, №3.

Вставки ДНК из 3000 YAC-клонов примерно равны по длине геному человека. В анализ на перекрывание YAC-колонов взяли 30000 клонов, с тем чтобы каждая точка генома перекрывалась несколькими клонами. Вначале неизвестно было, как они расположены, но в среднем каждая точка генома перекрывалась 10 раз. Было использовано порядка 3000 STR-маркеров, и посмотрели, эти как маркеры и клоны друг с другом перекрываются. В качестве метода, выявляющего присутствие генетического маркера в составе YAC-клонов, использовался ПЦР. На заключительном этапе  составления физической карты генома человека в этих 30 000 YAC-клонов, выявлено присутствие примерно 30000 маркеров. Это один маркер на 100 000 пар нуклеотидов. Расстояние между концами YAC-клонов также составило 100 000 п.н. (при длине клона 1 млн. п.н.). Картирование проводили на роботизированных машинах, которые проводили приблизительно по 300 000 ПЦР-реакций в день. Позволило расставить в контиг все YAC клоны. Предполагалось, что они будут непосредственно секвенироваться. Однако в дальнейшем была использована друга схема секвенирования клонов. Картированные YAC-клоны часто использовали для поиска генов, находящихся во вставке YAC, а к сиквенсу этот этап не привел.

Перекрывание можно также посмотреть по расположению специфических рестрикционных сайтов. Рассмотрим этот способ подробнее. Структура фрагмента ДНК выявляется по положению участков расщепления специфическими ферментами – рестрикционными эндонуклеазами (рестриктазами). Каждая рестриктаза узнает последовательность нуклеотидов определенной длины и состава. Например, рестриктаза EcoRI узнает GAATTC и никакую другую (расщеплять ДНК она будет в среднем один раз на 46=4096 нуклеотидов),  BamHI узнает GGATTC. Предположим, что у нас есть клонированный фрагмент ДНК, длиной 13000 нуклеотидов, и мы расщепили его рестриктазой BamHI, получив два фрагмента по 9 и 4 тысячи нуклеотидов. Затем если мы расщепим EcoRI, получим фрагменты по 8, 3 и 2 kb. Когда мы посмотрим двойное расщепление, получим фрагменты размерами 7, 3, 2, 1 kb. Размеры известны, потому что рядом есть дорожка, в которой идет фракционирование молекул стандартного размера, что позволяет создать калибровочную кривую. Если мы проведем второе расщепление, то увидим, что фрагмент в 9kb расщепился на фрагменты по 7 и 2kb. Эта специфическая последовательность сайтов и специфическое расстояние между ними является портретом молекулы (см. рис. ниже). По этим портретам мы можем сопоставлять молекулы друг с другом, независимо от того, что они кодируют, и что в них находится. Это очень типичная процедура. Расщепление фрагмента ДНК каждой рестриктазой по отдельности и их смесью позволяет создать рестрикционную карту фрагмента.

Итак, мы расставили молекулы методом генетического и физического картирования. Вернемся к методу секвенирования. Использовалась примесь дидезоксинуклеотидов - ddNTP (на рисунке – справа; у них нет OH-группы у 3’-атома углерода), которая добавлялась к обычным дезоксинуклеотидам (на рисунке слева). И при синтезе ДНК in vitro это приводило к прекращению синтеза цепи в позиции, в которой вставился ddNTP. Через позицию 3’ идет присоединение нуклеотида к строящейся молекуле ДНК. Но если на 3`- конце не будет гидроксильной группы, а водород, то синтез дальше не пойдет – он будет терминирован.

Это используется следующим образом. У нас есть матрица (нить ДНК), которую надо секвенировать. Если идет синтез, и в первой позиции матрицы стоит А (см. рис. ниже), то может встроиться обычный Т и синтез пойдет дальше, а может встроиться ddТTP и синтез дальше не пойдет. Произойдет обрыв цепи, а полученный синтезированный огрызок займет при фракционировании определенную позицию согласно своему размеру. Следующий обрыв будет соответствовать второй букве секвенируемой нити, и также займет свою позицию согласно длине при фракционировании на электрофорезе и т.д. И так по каждому нуклеотиду. Так мы восстановим последовательность нуклеотидов в секвенируемой нити ДНК. Этот метод предложил Фрэд Сэнгер, за что получил свою вторую Нобелевскую премию.

Рассмотрим определение последовательности нуклеотидов в клонированном фрагменте ДНК. Клонированный фрагмент находится в так называемой векторной молекуле ДНК – молекуле, которая позволяет ввести его в клетку (обычно это клетка бактериальная, но иногда используются и дрожжевые клетки). Все работы по секвенированию генома человека прошли при участии бактериальных векторных молекул. Участок вектора, прилежащий к вставке, содержит последовательность нуклеотидов, комплементарную универсальному секвенирующему праймеру. С этого праймера инициируется синтез ДНК in vitro, который с первого нуклеотида будет идти по матрице клонированного фрагмента ДНК человека. Универсальных праймеров используется два, один к последовательности вектора прилежащей к одному концу вставки, другой праймер к последовательности вектора прилежащей к другому концу вставки. С одного из праймеров клонированный фрагмент секвенируется с одной стороны, а с другого праймера – с другой стороны.  

Вектор у нас один и тот же, а вставок – миллионы, но все они секвенировались с одной и той же пары праймеров. Основная часть генома была секвенирована при клонировании фрагментов в 2 тысячи пар нуклеотидов, потому что тысяча читалась с одной стороны и тысяча – с другой. Каждая точка генома человека была просеквенирована несколько десятков раз в составе разных клонированных молекул ДНК. То есть расстояние в геноме между концами клонированных и секвенированных фрагментов ДНК составляло меньше 200 пар нуклеотидов. От каждой точки старта было прочитано около 1000 нуклеотидов. Из всего этого набора «текстов» воспроизводилась структура генома человека. Но собрать эти 1000-буквенные  сиквенсы в контиги длинной в мииллионы букв удалось лишь на основе того, что большая часть фрагментов была предварительно картирована относительно хромосом человека.  Без картирования сиквенс мог попасть в повторяющийся участок генома, а продолжение сиквенса из такого участка имеет столько вариантов продолжений, сколько раз повтор присутствует в геноме человека (некоторые повторы – миллион раз). Поэтому сначала устанавливали последовательность расположения клонированных фрагментов в геноме. Это было сделано для фрагментов размером около 200 тыс пар нуклеотидов, а уже затем их секвенировали.

 Процесс секвенирования по методу Сенгера может быть автоматизирован. Механизм представлен на следующем слайде.

На слайде виден праймер, синтез с которого идет влево. У нас есть дидезоксинуклеотидфосфаты  T, A,C и G. Каждый из них занимает свою позицию во фрагменте синтезируемом по исследуемой матричной нити. На предыдущем слайде каждой букве соответствовала отдельная дорожка геля, их всего четыре. Если каждую из букв терминирующих синтез пометить в свой цвет, то все терминаторы можно объединить в одной пробирке и фракционировать продукты в одной дорожке. Обрыв синтеза в  позиции данной буквы даст фрагмент со своим положением в геле после фракционирования. Каждое положение обрыва будет характеризоваться цветом той- буквы терминатора, на которой произошел обрыв. В ходе фракционирования терминированных фрагментов лазер будет фиксировать на детекторе  последовательные пики - какая прошла полоса по счету, и какого она цвета. Далее эта последовательность пиков дешифруется в последовательность нуклеотидов в молекуле ДНК. Точность сиквенса (установления того, какая именно буква терминировала синтез в данной позиции) определяется соотношением высот пиков соответствующих разным буквам в одной и той же позиции секвенируемого фрагмента. Между двумя пиками разных цветов в одной позиции было заданное дискриминирующее значение. Техника отрабатывалась так, что буква считалась достоверно установленной для данной позиции, если основной пик в этой позиции был выше других в заданное количество раз.

Бактерия H.influenzae была первым свободно живущим организмом, геном которого был полностью секвенирован. Поскольку геном бактерии маленький, около тысячи нуклеотидов, и повторов нем мало (да и короткие они), то предварительное картирование клонированных фрагментов ДНК не понадобилось – эти фрагменты сразу сиквенировались.

Такая работа была проведена в институте генетических исследований ТIGR под началом Крега Вентера. Вентер затем организовал фирму Селера, секвенировавшую геном человека, где он применил ту же схему секвенирования что и для бактерии. Причем деньги он взял у частных фирм, так как государство не верило, что у него что-нибудь получится.

Мировое сообщество предварительно использовало генетическую и физическую карты, относительно которой была выстроена последовательность перекрывающихся фрагментов клонированной ДНК (контиг), предназначенной для секвенирования. То есть сиквенс генома человека был собран из фрагментов правило благодаря использованию упорядоченного набора клонов и установлению последовательности нуклеотидов картированных клонов.

Вентер же, в отличие от мирового сообщества, использовал случайный набор клонов и попытался восстановить полную последовательность нуклеотидов прямо из сравнения сиквенсов всей кучи фрагментов. На бактерии у него это удалось, но на человеке это сработало лишь потому, что он использовал публично доступные данные от мирового сообщества о том, какие молекулы где расположены в геноме человека.

Вентер опубликовал свою работу на месяц раньше, чем мировое сообщество, потому что он ничего не картировал, а использовал секвенирование совсем коротких рекомбинантных молекул. Общую длина секвенированных фрагментов ДНК была у Вентера в пять раз больше, чем сделало все мировое сообщество. Используя данные мирового сообщества о картированных фрагментах, Вентер смог восстановить в единую последовательность нуклеотидов  все то, что он насеквенировал. Если бы данных мирового сообщества не было бы, то вся его работа была представлена короткими отрезками, которые бы разветвлялись, из-за того, что в геноме находятся повторы.

В результате проделанной работы вышло две статьи: статья Вентера в журнале Science и статья Лэндера – лидера мирового сообщества - в журнале Nature.

Проект генома человека начат в 1990 г. Первая (черновая) версия последовательности нуклеотидов была закончена в 2000г. Конечная версия, которая больше не будет совершенствоваться (названная Build35) - закончена в 2004 г.

Последняя версия последовательности содержит 2,85 миллиардов пар нуклеотидов с 341 брешью, то есть в этих местах по каким-то причинам секвенировать геномную ДНК не удалось. Сиквенс покрывает около 99% той части генома человека, которая представлены в некомпактизированной   форме – эухроматине. Аккуратность сиквенса в конечной версии – 1 ошибка на 100 тысяч позиций подряд. Еще точнее секвенировать весь геном уже никто не будет. Напомню, что папин геном отличается у вас от маминого генома примерно в 1 позиции на тысячу.

Предсказанное число генов у человека  теперь 20-25 тысяч, что немного меньше, чем предсказывалось раньше.   

Кроме данных о последовательности нуклеотидов геномной ДНК человека (референтная последовательность) созданы также базы данных:

1) о последовательности нуклеотидов транскрибируемых участков ДНК (EST database, EST = Expressed Sequence Tags), которая характеризует не геномную ДНК, а то, транскрибировалось с ДНК.

2) о положении и содержании отличий (полиморфизмов, то есть нуклеотидных замен) других известных последовательностей ДНК человека от референтной последовательности (SNP database, SNP = Single Nucleotide Polymorphism)

Назад:
Лекция №18. Сцепление и рекомбинация. Мутации: роль в эволюции и индивидуальном развитии
Далее:
Лекция №20. Геномика (часть 2)

наверх | на главную
 Discuss it
  • Anonymous — лекции непонятны (китайца [60.208.64.177], 06.05.2007 13:11:03) #
    в лекции колоссальное количество ошибок, текст малопонятен, и вообще, КТО СОСТАВЛЯЛ ЭТИ ЛЕКЦИИ???
     
    Ответить
    • Anonymous — Вы сможете все высказать лично автору на зачете. (bioeditor [194.85.83.35], 06.05.2007 18:23:08) #
      Пока же я буду вам признателен, если вы укажете на то, какие именно ошибки присутствуют в тексте.
       
      Ответить
      • Anonymous — пожалуйста,перечитайте сами в конце концов лекции! (студентка [10.10.80.98], 06.05.2007 23:59:37) #
        например на 6й картинке уже откровенный "бот по фене".цитата: "участки молекулы ДНК,распознаваемые праймерами для секвенирования,присоединены к исследуемому фрагменту ДНК путём".Всё путем,не волнуйтесь,братцы!
         
        Ответить
        • Anonymous — по поводу лекции (первокур [10.10.80.110], 20.05.2007 12:42:16) #
          ужасная лекция, совершенно ничего не понятно. Может лучше было бы написать побольше, но попонятнее, а то читаю уже не первый раз и все равно все как в тумане.
           
          Ответить
          • Anonymous — анимация (Тут проще. [85.140.51.245], 20.05.2007 18:28:35) #
            http://www.maxanim.com/genetics/PCR/PCR.htm
             
            Ответить
            • Anonymous — Неасилил (serg [66.44.104.79], 21.05.2007 14:03:54) #
              Ребята правы. Я много геномов сделал, но такое крео даже Удаву не рискнул бы отправить. Ошибок очень много. Хорошо, что хоть студенты знают, что "какие молекулы где расположены в геноме человека" - это BS. Лучше название факультета поменять, чем такое вывешивать 1,830,137 base pairs - это "около тысячи нуклеотидов"? "Общую длина секвенированных фрагментов ДНК была у Вентера в пять раз больше, чем сделало все мировое сообщество." - это или яблоки сравниваются с апельсинами, или полная неправда. "Вентер смог восстановить в единую последовательность нуклеотидов все то, что он насеквенировал." - у него до сих пор нет единой последовательности. "Еще точнее секвенировать весь геном уже никто не будет." - именно над этим Вентер сейчас и работает со своей ДНК. "Мировое сообщество" не может этого делать со своим прожектом. Они "потеряли" первоначальную ДНК, чтоб никто никогда не проверил. Если физтехи будут таким образом ставить свои эксперименты, то никогда зачет на лабах не получат. "Предсказанное число генов у человека теперь 20-25 тысяч, что немного меньше, чем предсказывалось раньше." - немного по сравнению с 90-120 тысяч? "папин геном отличается у вас от маминого генома примерно в 1 позиции на тысячу." - забыли про Y хромосому? И внутри хромосом много вариаций. Самая выдающаяся: What a difference copy number variation makes. - DNA copy number variation (CNV) represents a considerable source of human genetic diversity. Recently, a global map of copy number variation in the human genome has been drawn up which reveals not only the ubiquity but also the complexity of this type of variation. Thus, two human genomes may differ by more than 20 Mb and it is likely that the full extent of CNV still remains to be discovered. Nearly 3000 genes are associated with CNV. This high degree of variability with regard to gene copy number between two individuals challenges definitions of normality. Many CNVs are located in regions of complex genomic structure and this currently limits the extent to which these variants can be genotyped by using tagging SNPs. However, some CNVs are already amenable to genome-wide association studies so that their influence on human phenotypic diversity and disease susceptibility may soon be determined. - Kehrer-Sawatzki H. Bioessays. 2007 Apr;29(4):311-3
               
              Ответить
              • Anonymous — Ошибка (Я [10.10.80.163], 10.05.2008 12:44:34) #
                Вторая снизу картинка, чуть выше этой картинки написано: "То есть сиквенс генома человека был собран из фрагментов правило благодаря использованию упорядоченного набора клонов и установлению последовательности нуклеотидов картированных клонов."
                 
                Ответить
                • Anonymous — Трудно (Я [10.10.80.163], 10.05.2008 12:46:39) #
                  Владислав Антонович, может всетаки 19 и 20 лекции разжуете? Сделайте их хоть в 2 раза больше, только ПОНЯТНЫМИ, а то приходиться читать по 3-4 раза, да и то не все ясно остается :(
                   
                  Ответить
                  • Anonymous — Ответ (bioeditor [194.85.83.35], 10.05.2008 20:15:55) #
                    Лекции сделаны как расшифровка аудиозаписи лекции Янковского и потом им правились. По-видимому, баги остались - напишу Боринской.
                     
                    Ответить
                    Оставить свой комментарий