据国外媒体报道,脱氧核糖核酸(DNA)是维持生命运作的灵药,如同一本蛋白质生产的指导手册。这本手册仅用四个字母写成:A、G、T和C,分别对应着4个碱基:腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)和胞嘧啶(C)。
这四个字母、或者说碱基对,在长长的DNA链中以特定方式组合在一起,便构成了基因。基因是微小的DNA片段,其中记录着通过转录过程生成蛋白质所需的信息。这些蛋白质对于生物的发育和生存而言至关重要。
1990年,几家实验室决定联手破解构成人类DNA的遗传指令,这便是著名的“人类基因组项目”。到了2003年4月该项目结束时,我们终于揭开了大自然绘制的人类蓝图。
借助人类基因组计划,科学家终于对人类的DNA有了数字概念。结果显示,人类细胞中共含有30亿对碱基对,压缩成了23对染色体。每2万至2.5万条基因对应着约1亿个碱基对,负责着一系列蛋白质的编码,其中每种蛋白质都有各自的独特功能。在整个基因组中,负责蛋白质编码的DNA仅占1%至2%。
剩余的98%至99%并未负责任何蛋白质的编码,因此被命名为“非编码DNA”。由于科学家认为蛋白质合成是DNA的主要作用,因此这部分DNA又被叫做“垃圾DNA”。但问题是,作为生命的“菜谱”,DNA中为何会有这么多页的垃圾内容呢?
合成蛋白质并不像按照菜谱做菜那么简单。蛋白质需要借助DNA的转录才能合成,因为合成蛋白质的酶无法直接读取DNA。DNA中编录的内容会被复制到一种叫做“信使RNA(mRNA)”的分子上去。和DNA一样,mRNA也有4个碱基对,但胸腺嘧啶(T)被尿嘧啶(U)所取代。此外,mRNA是单链结构,而不是DNA那样的双链结构。
在转录期间,mRNA会被切割成若干片段、然后再重新结合在一起。这一过程名叫RNA剪接。之所以要有这一过程,是因为部分基因片段“从蛋白质角度来说”没有意义。这些片段被叫做“内含子”(introns)。在RNA剪接过程中,这些片段会被剔除出去、弃之不用,可以说这些片段在转录过程中被丢弃了。
数十年来,这些非编码片段一直令科学家困惑不已。它们分散在各个基因之间,似乎起不到任何明显作用,许多科学家认为它们毫无价值可言。1972年,遗传学家大野乾(Susumu Ohno)发明了“垃圾DNA”一词,来形容这些DNA中的“废料”。当时,这些DNA也被称作“自私DNA”,因为它们的存在似乎完全是为了自己,对生物体的生存没有做出任何贡献。
不过,有一些科学家认为,我们不应仓促地给这些DNA打上“无用”的标签。如果你在阅读这篇文章的英语原文时,只认识其中的十个单词,你能说除此之外的其它单词全都是无用的废话吗?同理,科学家认为,这些所谓的“垃圾DNA”的功能也许只是尚未被我们发现而已。
研究人员决定将人类基因组与其它动物基因组的庞大数据库进行比较。这项技术名叫比较基因组学。结果研究人员震惊地发现,有些垃圾DNA片段千万年来始终不曾改变过。这些DNA片段得以被保留下来,说明非编码DNA在某种程度上对生物的存活至关重要。因此,这些DNA在进化过程中通过“正选择”被保留了下来,因为假如这些片段发生了变异,可能会对生物有害。
例如,在6500万至7500万年以前,小鼠和人类从同一个祖先走上了两条不同的进化路线。研究人员发现,在所有保留下来的DNA中,只有20%负责了蛋白质编码,大部分DNA其实都属于基因组中的非编码区域。
然而,在人类基因组计划结束后发布的“DNA元件百科全书”(简称ENCODE)为垃圾DNA的“无用”投出了否定的一票。ENCODE是在美国国家人类基因组研究院的赞助下、由多家实验室合作完成的。人类基因组计划旨在解读人类生存的蓝图,而ENCODE则力图弄清这部蓝图中的哪些片段真的有用。
人类基因组计划利用了DNA测序来破解人类基因组,而ENCODE项目则通过RNA测序、以及寻找可以被化学物质或蛋白质改变的DNA片段,对RNA等其它元件进行了考察。该项目研究结果显示,DNA片段的化学活动也许给我们一些提示,帮助我们了解其可能有哪些功能。
要记得,基因携带着合成蛋白质所需的信息,而蛋白质最终负责执行细胞功能。给定基因最终能够合成的蛋白质数量是由其基因表达(即利用基因中编录的信息指导蛋白质合成的能力)决定的。
特定的蛋白质、转录因子、或化学物质可以与DNA结合,改变基因表达的时间和方式。科学家发现,一部分“垃圾DNA”中含有能够调节基因的DNA,可以决定何时及如何激活或关停基因。它们还可以作为转录因子与DNA结合的场所,对转录过程进行调节。非编码DNA包含几种不同的调控因子,包括:
假如将基因比作一个灯泡,那么启动子序列就是它的开关。启动子为蛋白质提供了一个启动转录过程所需的场所,还可以切换转录相关元件的开闭。无法合成蛋白质的基因不含启动子,其位置处于编码基因序列的前端。
协助激活转录过程的蛋白质会与增强子序列结合。增强子的作用类似于化学反应中的催化剂。即使没有增强子序列,转录依然可以发生,但在有增强子的情况下,转录的效率会更高。增强子可能位于基因序列末端,也可能远离基因序列。
与增强子相反,沉默子可以与能够抑制转录的蛋白质结合,防止某个基因过度表达,造成蛋白质过剩。与增强子类似,沉默子与基因序列之间的距离也由远有近。
增强子与沉默子结合在一起,起到的作用类似于风扇的调节器。只不过它们控制的不是风扇转速,而是基因表达的程度。蛋白质与增强子结合,相当于把风速调到最大;而与沉默子结合,则相当于让风扇“停转”。
以上列举了非编码DNA的几项“功能”。那么,非编码DNA究竟算不算功能性的DNA序列呢?
一段“功能性”的DNA序列能够控制基因表达,即由一段特定基因序列合成的蛋白质数量。正是蛋白质组合上的区别赋予了每种细胞独特的功能。因此,既然每个细胞含有的基因组和DNA都相同,就需要由基因表达水平来决定某个细胞属于上皮细胞、免疫细胞还是神经细胞等等。
为解释这种与生俱来的可变性,ENCODE研究团队在多种类型的细胞中实践了上述技术。因此,按照上述“功能性”的定义,“垃圾DNA”对基因表达绝对起到了一定影响。ENCODE项目的研究结果说明,我们对基因组中神秘的非编码区域的了解实在是少得可怜。
2012年,ENCODE项目合作小组揭露,超过80%的基因碱基对都表现出了生物化学活动。因此,拥有生物功能的DNA肯定不止1%。该项目发现了大量此前未识别出的信号和“开关”,就像纹身一样,镶嵌在人类DNA各处。
自ENCODE项目发布研究结果以来,科学家已经找到了非编码DNA序列与多种生物学过程及人类疾病之间的关联。研究人员猜测,这些序列也许与我们方向相反的大拇指、甚至子宫的发育有关。期刊《致癌基因》(Oncogene)上发表的一篇论文也显示,一段非编码DNA片段可以调控基因表达,最终可以对前列腺癌和乳腺癌的患病风险造成影响。因此,破解所谓“垃圾DNA”的功能如今已成为了一项大有可为的研究领域。
但这里需要指出,ENCODE项目对于“有功能”的定义受到了人们的激烈讨论。许多科学家指出,ENCODE项目的结果具有误导性,并且被远远高估了。
他们认为,蛋白质仅仅是与DNA结合、或是经历了化学变化,不足以说明该DNA序列一定扮演着某种有意义的角色。在生物体内,有些DNA与蛋白质的结合仅仅是随机发生的事件,没有任何重要意义。这无疑给ENCODE项目发布的结果蒙上了一层疑影。
这些批评的声音不无道理。要想对非编码DNA的功能进行量化,我们还需要开展更多研究工作。不过,对于“垃圾DNA其实一点也不垃圾”这一事实,倒是没有人反对。