Сколько сора в нашей ДНК
Александр Панчин, кандидат биологических наук, Россия
Я был бы весьма горд служить в комитете, который разработал геном кишечной палочки. Однако я бы никогда не признался, что служил в комитете, который спроектировал геном человека. Даже университетский комитет не смог бы выполнить что-то так плохо.
— Дейвид Пенни (David Penny)
Эпиграф взят из статьи [1]
Выносите мусор
Один блогер написал заметку, где сформулировал следующее наблюдение: чтобы устроить настоящую войну в комментариях к записи в социальных сетях, достаточно просто перечислить в каком-либо невнятном контексте ряд поляризующих общество тем: политику, сексизм, гомосексуализм, креационизм, религию, веганство, чтобы у каждого была возможность сообщение не понять и по-своему оскорбиться. Наблюдение было тут же экспериментально подтверждено комментариями к заметке: начались предсказанные словесные баталии. Жаркие споры ведут не только обыватели в социальных сетях, но и ученые. Только дискуссии на страницах научных журналов обычно выглядят совсем не так, как мог бы представить себе человек, далекий от науки. Например, вместо дебатов на тему «эволюция или креационизм» обсуждают более частные вопросы: как в процессе эволюции возникла многоклеточность [2] или кто человеку более близкий родственник — собака [3] или хомячок [4]. Однако есть темы, вокруг которых в рамках научного сообщества разгораются настоящие текстовые войны. Не последуем пословице «не выноси сор из избы» и обсудим одну из них — сколько «мусора» в нашей с вами ДНК?
Немного молекулярной генетики
Напомним, что в основе передачи наследственной информации лежит двухцепочечная молекула ДНК [5]. Она представляет собой полимер из четырех типов мономеров (нуклеотидов): аденина (A), тимина (T), цитозина © и гуанина (G), и уложена в хромосомы. У человека 23 пары хромосом (22 пары неполовых и одна пара половых), расположенных в ядре, они и составляют основу нашего генома. Если бы мы взяли одну клетку человека, сшили все хромосомы вместе и вытянули в нить, то получили бы молекулу длиной в два метра, состоящую из шести миллиардов пар оснований (нуклеотидов). Три миллиарда от папы и три миллиарда от мамы (диплоидный набор хромосом).
Наиболее изученный тип функциональных последовательностей ДНК — гены, кодирующие белки. С таких генов считывается молекула РНК, которая затем играет роль матрицы для синтеза белков и определяет их аминокислотную последовательность. Кодирующая часть молекулы РНК может быть разделена на тройки нуклеотидов (кодоны), которые либо соответствуют некоторой аминокислоте, либо определяют место окончания синтеза белка (стоп-кодоны). Правило соответствия кодонов аминокислотам называется генетическим кодом. Например, кодон GCC кодирует аминокислоту аланин.
Иногда в СМИ можно услышать некорректную фразу «генетический код мутировал». Но мутации происходят не в коде, а в молекуле ДНК (в геноме). В результате меняются нуклеотидные последовательности. Это можно сравнить с заменой буквы в некотором слове. Например, фраза «Маша ехала на мотоцикле» превращается во фразу «Саша ехала на мотоцикле», если одна буква М «мутировала» в букву С. Изменение генетического кода намного серьезней — это как изменение алфавита. Представим, что во всем тексте буква М внезапно превратилась в букву К. Теперь у нас «Каша ехала на котоцикле». Понятно, что такие изменения приводят к значительным последствиям и поэтому в природе происходят крайне редко. Но происходят! Например, у некоторых инфузорий (одноклеточных простейших) один из стоп-кодонов может кодировать аминокислоту глутамин [6]. Кроме того, оказалось несложным небольшое искусственное изменение генетического кода некоторых современных организмов, например, кишечной палочки [7]. Но это скорее исключение, чем правило. У большинства организмов один и тот же генетический код: у человека он такой же, как и у червяка или огурца. А вот геномы у этих организмов различаются очень сильно. Тот же алфавит, но другой текст.
Меряемся генами
Когда-то думали, что у столь сложного организма как человек должно быть очень много генов. До того, как был прочитан геном человека [8], ученые даже устраивали тотализаторы: сколько генов будет обнаружено? Назывались цифры вплоть до сотен тысяч. Многие ученые удивились, когда оказалось, что количество генов у человека и маленького круглого червя Caenorhabditis elegans примерно одинаковое. У червяка около 20000 генов, а у нас — 20–25 тысяч [9, 10], что для «венца творения» факт довольно обидный. Особенно если учесть, что полно организмов как с бóльшим по размеру геномом (двоякодышащая рыба Protopterus aethiopicus имеет геном в 40 раз больше, чем человек), так и с бóльшим количеством генов (у риса Oryza sativa 32000–50000 генов [11]).
Но на самом деле у человека менее 2% генома кодируют какие-либо белки. Для чего же нужны остальные 98%? Может, там скрывается секрет нашей сложности? Оказалось, что существуют важные некодирующие участки ДНК. Например, это участки промоторов, на которые садится фермент РНК-полимераза и откуда начинается синтез молекулы РНК. Это участки связывания транскрипционных факторов — белков, регулирующих работу генов. Это теломеры, защищающие концы хромосом, и центромеры, необходимые для правильного расхождения хромосом по разным полюсам клеток при делении. Известны некоторые регуляторные молекулы РНК (например, микроРНК [12]), а также молекулы РНК, входящие в состав важных ферментативных комплексов, например, рибосомальные РНК. Есть и другие примеры важных некодирующих участков ДНК.
Но, увы, оказалось, что большая часть нашего генома напоминает пустыню [13]: повторяющиеся последовательности, останки «мертвых» вирусов, которые когда-то давно встраивались в геномы наших предков, так называемые «эгоистичные мобильные элементы» [14–16] — последовательности ДНК, способные перескакивать из одного участка генома в другой, различные псевдогены — нуклеотидные последовательности, утратившие способность кодировать белки в результате мутаций, но все еще сохранившие некоторые признаки генов. Это далеко не полный список «призраков», обитающих на «кладбище генома».
Минимальная мышь
В связи с вышесказанным существует точка зрения, что большая часть генома человека не функциональна. В 2004 году журнал Nature опубликовал статью, описывавшую мышей, из генома которых были вырезаны значительные фрагменты некодирующей ДНК размером в 1.5 миллиона и 0.8 миллионов нуклеотидов. Было показано, что эти мыши не отличаются от обычных строением тела, развитием, продолжительностью жизни или способностью оставлять потомство [17]. Разумеется, какие-то отличия могли остаться незамеченными в лаборатории, но в целом это был серьезный аргумент в пользу существования «мусорной ДНК» [18], от которой можно избавиться без серьезных последствий. Конечно, было бы интересно вырезать не пару миллионов нуклеотидов, а миллиард, оставив только предсказанные последовательности генов и известные функциональные элементы. Удастся ли вывести подобную «минимальную мышь», и сможет ли она нормально существовать? Может ли человека обойтись геномом «длиной лишь в половину метра»? Возможно, когда-нибудь мы об этом узнаем. Тем временем еще одним важным аргументом в пользу существования мусорной ДНК является наличие достаточно близких организмов с очень разными размерами геномов. Геном рыбы фугу примерно в 8 раз меньше, чем геном человека (хотя генов в нем примерно столько же) [19] и в 330 раз меньше, чем геном уже упомянутой рыбы протоптер. Если бы каждый нуклеотид в геноме был функционален, то был бы уместен и такой вопрос: зачем луку геном в пять раз больший, чем нам с вами?
На колоссальные различия в размерах геномов сходных организмов обратил внимание эволюционный биолог Сусуму Оно (Susumu Ohno). Считается, что именно Оно ввел термин «Мусорная ДНК» («Junk DNA») [20]. Оказывается, что еще в 1972 году, задолго до того, как был прочитан геном человека, Оно имел правдоподобные представления как о количестве генов в геноме человека, так и о количестве «мусора» в нем. В своей статье «Столько мусорной ДНК в нашем геноме» [20] он отмечает, что в геноме человека должно быть около 30000 генов. Это число близкое к правде, как мы узнали десятки лет спустя, но на тот момент совсем не очевидное. Кроме того, Оно приводит оценку функциональной доли генома (6%), объявляя более 90% генома человека мусором.
Что для одного — находка, для другого — мусор
Вызов представлению о существовании мусорной ДНК бросил проект ENCODE (Энциклопедия элементов ДНК). Получив многочисленные экспериментальные данные о том, какие части генома человека взаимодействуют с различными белками, участвуют в транскрипции или других биохимических процессах, авторы пришли к выводу, что более 80% генома человека так или иначе функциональны [21]. Разумеется, данный тезис вызывал бурное обсуждение в научном сообществе [1, 22].
Одна из наиболее ироничных статей, критичная к данному выводу консорциума ENCODE, называется так: «О бессмертии телевизоров: „функция“ в геноме человека по лишенному эволюции Евангелию от ENCODE» [1]. Статья начинается с эпиграфа, который я утащил в начало текста. Ее авторы профессор Дэн Граур (Dan Graur) и коллеги отмечают, что отдельные члены консорциума ENCODE расходятся в том, какая часть генома функциональна. Так, один из них впоследствии уточнил, что речь идет не о 80% функциональных последовательностей в геноме, а о 40% [23], а другой и вовсе снизил показатель до 20% [24], но при этом продолжал настаивать, что термин «мусорная ДНК» нужно «устранить из лексикона». Над этим подшутили, что была изобретена новая арифметика, согласно которой 20% больше, чем 80% [1].
По мнению Граура и коллег [1], члены консорциума ENCODE довольно вольно интерпретирует термин «функция». Например, существуют белки, которые называют гистонами. Они могут связывать молекулу ДНК и помогают ей компактно укладываться. Гистоны могут подвергаться определенным химическим модификациям. Согласно ENCODE, предположительной функцией одной из таких модификаций гистонов является «предпочтение находиться в 5’-конце генов» (5’-конец — это конец гена, от которого движутся ферменты ДНК- и РНК полимеразы при копировании ДНК или при транскрипции, соответственно). «Это примерно как сказать, что функция Белого Дома — занимать площадь земли по адресу 1600, Пенсильвания Авеню, Вашингтон, Округ Колумбия» — отмечают ученые [1].
Возникает проблема и с приписыванием функции участкам ДНК. Предположим, что некоторый участок ДНК связывает важный белок, и поэтому ENCODE приписывает этому участку «функцию». Известно, что некоторый белок (транскрипционный фактор) связывается со следующей последовательностью нуклеотидов: TATAAA. Рассмотрим две идентичные последовательности TATAAA в разных частях генома. После того как транскрипционный фактор связывается с первой последовательностью, начинается синтез молекулы РНК, служащей матрицей для синтеза некоторого важного белка. Мутации в этой последовательности приведут к тому, что РНК будет считываться плохо, белок не будет синтезирован, и это, скорее всего, негативно скажется на выживании организма. Поэтому такая последовательность TATAAA будет поддерживаться в геноме с помощью естественного отбора, и в этом случае уместно говорить о наличии у нее функции. Вторая последовательность TATAAA возникла в геноме по случайным причинам. Поскольку она идентична первой, с ней тоже связывается транскрипционный фактор. Но никакого гена рядом нет, поэтому связывание ни к чему не приводит. Если в этом участке возникнет мутация, ничего не изменится, организм не пострадает. В данном случае говорить о функции TATAAA участка нет смысла. Впрочем, может оказаться, что наличие в геноме большого количества последовательностей TATAAA вдали от генов нужно просто для того, чтобы связывать транскрипционный фактор и уменьшать его эффективную концентрацию. В таком случае под отбором будет находиться число таких последовательностей в геноме.
Чтобы доказать, что некоторый участок ДНК функционален, недостаточно показать, что в этом участке происходит некий биологический процесс (например, связывание ДНК). Члены консорциума ENCODE пишут, что функцией обладают участки ДНК, которые вовлечены в транскрипцию. «Но почему нужно акцентировать внимание на том, что 74.7% генома транскрибируется, в то время как можно сказать, что 100% генома принимает участие в воспроизводимом биохимическом процессе — репликации!», — снова шутят Граур и коллеги.
Хорошим критерием функциональности участка ДНК является то, что мутации в нем достаточно вредны и значительные изменения этого участка не наблюдаются из поколения в поколение. Как определить такие участки? Здесь на помощь и приходит биоинформатика, современная наука на стыке биологии и математики об анализе последовательностей генов и белков. Мы можем взять геном человека и мыши и найти все участки ДНК, похожие между ними. Окажется, что у этих двух видов какие-то участки последовательностей нуклеотидов очень похожи. Например, гены, необходимые для синтеза рибосомальных белков, довольно консервативны, т.е. мутации в них достаточно вредны, чтобы носители новых мутаций вымирали, не оставляя потомства. Про такие гены говорят, что они находятся под отрицательным отбором, очищающим от вредных мутаций. Другие участки геномов будут иметь значительные расхождения между видами, что указывает на то, что мутации в этих участках, скорее всего, безвредны, а значит, их функциональная роль как минимум не велика или не определяется конкретной последовательностью нуклеотидов. В ряде работ оценили долю участков ДНК человека, находящихся под давлением отрицательного отбора. Оказалось, что только около 6.5–10% генома человека находятся под этим эффектом [25, 26], причем некодирующие участки, в отличие от кодирующих, в значительно меньшей степени подвержены отрицательному отбору [26]. Получается, что с точки зрения эволюционных критериев менее 10% генома человека функциональна. Обратите внимание, как близок был Оно в 1972 году!
Мусорная крепость
Означает ли это, что остальные 90% генома человека — совсем уж мусор, от которого лучше избавиться? Не совсем так. Есть соображения, что большой размер генома может быть полезен сам по себе. У бактерий репликация генома является серьезным лимитирующим фактором, препятствующим эффективному размножению. Поэтому их геномы, как правило, маленькие, а от всего лишнего они избавляются. У крупных организмов, как правило, репликация ДНК делящихся клеток вносит не столь большой вклад в общее количество энергетических затрат организма на фоне затрат на работу мозга, мышц, органов выделения, поддержания температуры тела и так далее. В то же время большой геном может являться важным источником генетического разнообразия, увеличивая шансы на появление новых функциональных участков из нефункциональных за счет мутаций в них в процессе эволюции. Мобильные элементы могут переносить регуляторные элементы, создавая генетическое разнообразие в регуляции работы генов. Таким образом, организмы с крупными геномами теоретически могут быстрее адаптироваться к условиям среды, расплачиваясь сравнительно небольшими дополнительными затратами на репликацию более крупного генома. Подобный эффект мы не обнаружим на отдельном организме, но он может играть важную роль на уровне популяции.
Наличие крупного генома может также уменьшать вероятность того, что какой-нибудь вирус встроится в функциональный ген (что может привести к поломке гена и в ряде случаев к раку). Иными словами, не исключено, что естественный отбор может действовать не только на поддержание конкретных последовательностей в геноме, но на поддержание определенных размеров генома, нуклеотидного состава в некоторых его участках и так далее.
Стоит дать адекватную оценку работы консорциума ENCODE. Да, идея, что 80% или даже 20% генома человека функциональна — спорна, но это вовсе не значит, что критике подлежит весь проект ENCODE. В рамках ENCODE было получено огромное количество данных о том, как разные белки связываются с ДНК, информации о регуляции генов и так далее. Эти данные представляют большой интерес для специалистов и широко востребованы. Но едва ли в ближайшее время удастся избавиться от «мусора» в геноме — как от концепции, так и от самих ненужных последовательностей.
Литература
1. Graur D., Zheng Y., Price N., Azevedo R.B., Zufall R.A., Elhaik E. (2013). On the immortality of television sets: “function” in the human genome according to the evolution-free gospel of ENCODE. Genome biology and evolution 5, 578–590;
2. Suga H., Chen Z., de Mendoza A., Sebe-Pedros A., Brown M.W., Kramer E., Carr M., Kerner P., Vervoort M., Sanchez-Pons N. et al. (2013). The Capsaspora genome reveals a complex unicellular prehistory of animals. Nature communications 4, 2325;
3. Cannarozzi G., Schneider A., Gonnet G. (2007). A phylogenomic study of human, dog, and mouse. PLoS computational biology 3, e2;
4. Nikolaev S., Montoya-Burgos J.I., Margulies E.H., Program NICS, Rougemont J., Nyffeler B., Antonarakis S.E. (2007). Early history of mammals is elucidated with the ENCODE multiple species sequencing data. PLoS genetics 3, e2;
5. Watson J.D., Crick F.H. (1953). Molecular structure of nucleic acids; a structure for deoxyribose nucleic acid. Nature 171, 737–738;
6. Sanchez-Silva R., Villalobo E., Morin L., Torres A. (2003). A new noncanonical nuclear genetic code: translation of UAA into glutamate. Current biology 13, 442–447;
7. Mukai T., Hayashi A., Iraha F., Sato A., Ohtake K., Yokoyama S., Sakamoto K. (2010). Codon reassignment in the Escherichia coli genetic code. Nucleic acids research 38, 8188–8195;
8. Биомолекула: “Геном человека: как это было и как это будет”;
9. International Human Genome Sequencing Consortium. (2004). Finishing the euchromatic sequence of the human genome. Nature 431, 931–945;
10. Биомолекула: “В полку генов убыло”;
11. Goff S.A., Ricke D., Lan T.H., Presting G., Wang R., Dunn M., Glazebrook J., Sessions A., Oeller P., Varma H. et al. (2002). A draft sequence of the rice genome (Oryza sativa L. ssp. japonica). Science 296, 92–100;
12. Биомолекула: “Обо всех РНК на свете, больших и малых”;
13. Биомолекула: “Геном человека: полезная книга, или глянцевый журнал?”;
14. Биомолекула: “Разнообразия много не бывает: чем занимаются мобильные элементы генома в мозге”;
15. Биомолекула: “Alu: история одной последовательности”;
16. Биомолекула: “Тайны ‘молекулярных паразитов’, или Как путешествовать по геному”;
17. Nobrega M.A., Zhu Y., Plajzer-Frick I., Afzal V., Rubin E.M. (2004). Megabase deletions of gene deserts result in viable mice. Nature 431, 988–993;
18. Биомолекула: “‘Мусорная’ ДНК управляет эволюцией млекопитающих?”;
19. Aparicio S., Chapman J., Stupka E., Putnam N., Chia J.M., Dehal P., Christoffels A., Rash S., Hoon S., Smit A. et al. (2002). Whole-genome shotgun assembly and analysis of the genome of Fugu rubripes. Science 297, 1301–1310.
20. Ohno S. (1972). So much “junk” DNA in our genome. Brookhaven symposia in biology 23, 366–370;
21. ENCODE Project Consortium (2012). An integrated encyclopedia of DNA elements in the human genome. Nature 489, 57–74;
22. Doolittle W.F. (2013). Is junk DNA bunk? A critique of ENCODE. Proceedings of the National Academy of Sciences of the United States of America 110, 5294–5300;
23. Gregory R.T. (2012). ENCODE spokesperson: 40%, not 80%. Genomicron;
24. Hall S.S. (2012). Journey to the genetic interior. Sci. Am. 307, 80–84;
25. Meader S., Ponting C.P., Lunter G. (2010). Massive turnover of functional sequence in human and other mammalian genomes. Genome Res. 20, 1335–1343;
26. Rands C.M., Meader S., Ponting C.P., Lunter G. (2014). 8.2% of the Human genome is constrained: variation in rates of turnover across functional element classes in the human lineage. PLoS genetics 10, e1004525.