【三思言论集】→【三思藏书架】→《基因天堂》          〖本书由Jerry2002扫校〗

        第三章 揭示生命操作系统源代码

 
无形之中的宏伟工程
 
  当你无意中走过那些掩映在绿树丛中的生命科学研究所时,可能没有意识
到在这些外表平静的古典建筑里正进行着一场比三峡还要浩大的工程:人类基
因组计划。 

  尽管没有人会在这里听到机器震耳欲聋的轰鸣声,也不会看到任何可以算
得上雄伟的建筑,但这项宏伟的人类基因组计划无论从投资,从涉及的人力,
从潜在的收益,还是从对社会的影响,都是人类历史上罕见的。 

  不少人愿意把这个计划比作曼哈顿计划或者阿波罗登月计划,以此显示人
类基因组计划的宏伟庞大,不过我始终认为就经济效益和对人类切身的影响而
言,基因组计划可能还要更胜一筹。 

  我们已经在2000年获得了人类基因组草图,并且在随后的一两年内将使彻
底填补草图中的空缺。事实上,这就意味着我们已经打开了一本生命天书——
人类操作系统的源代码,为我们真正揭示生命的奥秘提供最有用的资料,更为
我们进一步去修复及完善人类的操作系统奠定了最坚实有力的基础。 

  在这个有几十本电话黄页簿信息量的源代码中,蕴藏着近十万条基因。人
类基因组计划的终极目标就是要搞清楚这些基因的功能以及彼此相互作用的方
式,尤其是那些与疾病相关的基因,更是迫在眉睫(毕竟,除非你已经打算制
造后现代人类,否则这部分基因才是眼下最令人关心的)。 对这些基因的研
究,将赋予基因时代中的现代医学以全新的内容,并且全面启动分子医药产
业。而且,在实施该计划中所积累起来的技术和经验使得对其他动植物源代码
的测序解读变成小菜一碟 ,这又使得基因工程技术能够在能源环保、农业畜牧
业等诸多领域发挥作用,甚至产生革命性的影响。 

  对此,孟三都生物技术公司的主管夏皮罗有一句颇具有代表性的话,“时
下我们讨论世界三大产业———农 
业,食品和保健产品,就目前而言还处于各自独立经营阶段,但生物技术所出
现的一系列变革将很快导致三

  者合为一体经营,这就是生命科学产业。” 

   
滑雪胜地的科学家 
  
  早在人类基因组计划正式启动之前的几十年中,不少生物学家就一直致力
于解读人类的操作系统密码,不过都是散兵游勇,大家各自研究自己感兴趣的
基因,虽然也取得了一些成绩,但仅仅这点是远远不够的。

  如果把人类神秘的基因组比作一个黑匣子,以前所做的工作就好像零零星
星地在密封的盖子上钻了一些小孔,无论怎么窥视,也无法看见全貌。

  1984年12月,美国盐湖城附近的一个滑雪胜地聚集了一批分子遗传学家,
当时大家都在考虑一个问题:目前对DNA所做的那么多研究,我们究竟有没有
能力发现微小的基因突变。最终得出的结论令人失望。这个结果对与会者内心
的震动很大,也可以说,这次会议在科学家的心中埋下了启动人类基因组计划
的种子,在随后的几个月里,大家又对这一设想进行了更加细致深入的讨论。

  然而,就当时而言,这还只能停留在理论水平,因为以当时的技术水平,
要想完成这样一个庞大的工程,所需要的资金简直是一个天文数字,而且还会
遇到不少钱也无法解决的技术难题。难怪当美国能源部于1986年宣称启动基因
组计划时,遭到了广泛的置疑,怀疑技术水平,怀疑经济能力,甚至怀疑实施
这个计划的意义。

  不过时过境迁,如今人类基因组计划已经成了举世瞩目的一项世界性工
程,不仅各国政府投资,很多私立生物技术公司也趋之若鹜,不惜重金参与这
项工程。如此广泛的参与一方面得益于生物技术的革新,使原来的不可能变为
可能,使以前所需的巨额预算变得可以接受;更为重要的是,人类基因组计划
潜在的巨大社会与经济效益彻底打消了过去一些人的疑虑。我们可以快速的从
基因水平对疾病作出诊断,根据各人不同的基因型设计最合适的药物,甚至修
复那些异常的基因。由于这个计划的实施,仅仅在医药领域就已经创造了几百
亿美元的财富,而这还只是巨大冰山在海面上浮现出的一角而已。

  而且,完成这个计划对其他领域也同样至关重要,人类社会所面临的一系
列问题,从粮食危机到能源危机,生物技术成了人们要迎接这些挑战唯一可以
依赖的武器。


生物新大陆
  
  我们人类天生就有探索未知世界的习性,翻翻中世纪以来的航海图,人类
的足迹几乎遍布了地球表面的每一个角落。等到了20世纪下叶,更是干脆把触
角伸到了遥远的月球。至于人类的视野,更是向上远至宇宙深处,向下直达地
球内核。可是当我们不断拓展外部世界的时候,回过头来却发现,我们对人体
自身却知之甚少,其实在相当长时间里,我们一直处于欲深入了解但不知该从
何下手的尴尬局面,即使对人体宏观的解剖结构已经了如指掌,仍然无法揭示
人体的奥秘。

  直到1953年,两位生物学界的哥伦布——沃森和克利克,发现了DNA双
螺旋结构,人们才开始意识到这块新大陆中可能暗含着揭开人体奥秘的重要信
息。

  在人体数以兆计的细胞里,绝大部分细胞内部都有一套完整的遗传信息,
这些信息就蕴藏在几十亿个碱基的排列组合当中,有些人或许已经把它想像成
一条长长的DNA双螺旋分子,像一条蛇一样蜿蜒在细胞核里。不过,这么细
长的分子显得有点太脆弱,因此,这几十亿个碱基与一些蛋白质结合,然后重
重折叠,在细胞核里分别包裹成为46个香肠形状的染色体。

  如果能够绘制出一张精确的人类基因组地图,将使得人们可以准确得把某
个基因定位于这张地图上,并且明确这个基因的核苷酸顺序,进而知道该基因
在身体内的功能,再进一步揭示人体的基因组是如何控制我们的机体。在理论
水平上,我们对自身的了解将因此而发生前所未有的飞跃,从实用角度来讲,
我们也可以借助这张地图积极地参与到控制机体的活动中去,尤其是当由于某
个或某些基因的差错而导致机体失控时,更加需要这张地图查找错误基因,从
而为修复错误提供依据。

  在如此诱人前景的激励下自然云集了大批科学界的精英,同时也吸引了巨
额政府资助。

  1990年春,美国能源部和国立卫生研究院联手启动了这项耗资巨大,前景
无可限量的人类基因组计划,建议每年投资2亿美元,于1990年10月1日正
式启动第一个五年计划,整个规划当时计划历时15年,耗资30亿美元。没过
多久,英国、中国、日本、意大利、俄罗斯等多个国家也相继启动了自己的基
因组计划,并且也吸引了诸多官方的或私人的机构纷纷解囊。可以毫不夸张地
说,人类基因组计划已经成了一项全世界广泛参与的宏大工程。各国之间,各
研究结构之间既有激烈的竞争,又有热忱的协作,这一万马奔腾的盛况着实构
成了一幅令人叹为观止的壮观景象。


最好的献礼 

  竞争和协作如何能够完美地统一在一起,正在进行的人类基因组计划为我
们提供了一个经典的范例。各个国家以及各个参与机构既感受到来自各方竞争
的压力,也充分享受到了其余各方的无私协助。由于这个原因,基因组计划所
涉及的技术得到飞速发展,于1990年最初制定的计划草案不断更新,原定要15
年完成的人类基因组计划目前已决定提前至2003年完成,比预订的时间提前了
2年。

  在1998年10月23日的《科学》杂志上发表了1998至2003年度人类基因组计
划的工作目标,由于这五年是实施该计划的最后阶段,因此这也是整个基因组
计划的奋斗目标。

  这一五年计划大致包括以下几项内容:

  1.  在2001年之前完成人类基因组90%以上的工作草图。

  2.  2003年前完成整个人类基因组的测序工作,并且要将测序所得的结果
免费公开。

  3.  进一步对现有的测序技术进行改良及革新,加快测序速度,降低测序
成本。

  4.  发展能够大规模迅速检测单个核苷酸变异的技术,并对大部分已知基
因的常见变异进行检测。

  5.  发展能够深入分析基因表达的技术,同时也支持对非蛋白质编码区的
DNA部分的功能进行研究。(在人类的基因组中有很多不编码蛋白质的核苷酸
序列,估计这部分序列占整个基因组的90%以上)。

  6.  开始着手研究大规模蛋白质分析技术,这可以说是在为2003年以后的
工作做准备了。

  7.  大力发展对基因组计划获得的数据进行收集整理及分析的工具和软件,
这项工作是一门新兴的交叉学科——生物信息学研究的重点。

  8.  由于人类基因组计划将会对我们整个人类社会产生重大而深远的影响,
所涉及的诸多伦理的、社会的、法律的问题也是需要着手研究的重点之一。

  如果如期完成,人类基因组计划圆满成功之日将恰巧是沃森和克利克发现
DNA双螺旋50周年之时,这实在是纪念这一伟大发现的最好献礼。一旦成功,
人们将马不停蹄地对整个基因组的DNA序列进行全面细致的分析,并且可以轻
而易举地把测序分析技术应用于其他生物,从而在医药健康以外的领域也同样
发挥举足轻重的作用。

  无论从美国总统比尔﹒克林顿到微软公司的总裁比尔﹒盖茨,都预言21世
纪将会是生命科学的世纪,尽管生命科学在20世纪下半叶已经步入成熟,但
2003年人类基因组计划的完成才真正标志着“生命科学世纪”辉煌时期的到
来。
 

从低分辨率到高分辨率 
  
  人类基因组计划的所有目标中,绘制一幅详细的基因组图是其核心内容。
为了更加方便而有效地绘制这张DNA图,科学家采用的是由粗到精,由框架
到具体这样一个精密度逐步提高的方法。

  我们不妨设想你正在月球上,要用手里的一台天文望远镜绘制出一幅地球
表面全貌的详图。

  你如果急于求成,把望远镜调到高倍,举镜一望,或许会直接就发现了位
于浦东的东方明珠电视塔。然而由于倍数很高,你的视野里也只有这一个电视
塔而已。你根本无法把你所看到的东方明珠电视塔在正待绘制的地图上标出确
切的位置。你所得到的唯一收获便是地球上有一个塔,至于这座塔的位置信息
仍旧一无所知。不过,你应当还有一个收获,认识到一个亘古不变的真理:一
口吃不成胖子。

  于是,我们应该进行调整,采用一种以合理速度吃成胖子的方法。

  首先你把望远镜的倍数调到低倍,然后遥望地球,这时会看到整个地球的
概貌:一个蓝色球形的天体。你可以分辨出地球表面占2/3面积的海洋,以及
亚欧大陆,美洲大陆,南极洲等等,你也许还能看到大陆上一些巨大的山脉河
流。这时,你所描绘的是分辨率极低的一张地球概貌图。

  不要小看这张地图,因为它为你今后绘制详图提供了最基本而重要的框
架。接下来,你把图中的地球分成若干部分,然后分别在每一部分添加细节。

  还有一点要注意的是,你应该在图中找出一些具有独特性的物体作为标
记。比如,在低分辨率的地图上就可以比较清晰地看到长城,并且中国以外的
其他地方都找不到第二座类似的建筑,因此长城就是一个理想的标记。这种标
记的作用是显而易见的,在以后的作图过程中,你如果发现某某建筑在长城附
近,那么你就可以迅速明确该建筑的位置。

  接下来你适当地提高手里望远镜的放大倍数, 把视野聚焦到这块有长城、
长江的大陆上来,这时,你将得到关于地球表面这一局部的更多细节,看到了
太湖、泰山等等。标出太湖在地球表面的位置后,再进一步聚焦至以太湖为中
心的长江三角洲。随着放大倍数的逐步提高,分辨率不断增强,最后就可以把
位于长江三角洲地区的大小城市、河流、山川详尽且准确的在地图上绘制出
来。

  采用同样的方法,你能够把地球上任何一个局部的细节准确无误地在地图
上绘制,更重要的是,不会搞错它们在地球上的位置。

  采用这种方法绘制地球地图,其任务的艰巨性与复杂性一定已经让你望而
生畏,实际上,人类基因组研究任务之艰巨较之有过之而无不及。仅仅设想一
下,如果把人类基因组30亿个碱基用肉眼可辨大小的字体印出来,其篇幅就相
当于13套大英百科全书!

  我之所以把绘制地球详图这样一个看似与人类基因组计划无关的问题解释
得这样详尽,无非是因为绘制人类基因组图谱和上述过程采用的是完全相似的
思想方法: 应用标记定位,从低分辨率到高分辨率。


基因组,揭开你的盖头来  
  
  由于人类基因组计划的任务极其艰巨,美国能源部和国立卫生研究院制定
了先作图,后测序的二期计划。之所以这样做,是因为测序必然先要以有序的
标记作为导引,并且在90年代初期,测序技术无论就速度还是价格而言都远远
不能适应人类基因组测序的要求,人们希望后期测序技术能够取得质的创新与
突破。因此,从总体上来说,先作图后测序的规划仍然遵循的是由粗到精,由
低分辨率到高分辨率的思想方法。

  在人类基因组计划的作图中,有一种较为特殊的作图方法,称之为遗传连
锁图,说它特殊,是因为连锁图所表示的并不是实际的物理位置,而只是各基
因彼此之间的相对位置。由于绘制遗传连锁图并不需要多么高明的生物技术作
为后盾,而更多依赖于对家族遗传模式进行辛苦的分析。因此,绘制连锁图的
历史悠久。通过遗传连锁图,遗传学家在即使不知道遗传疾病的分子机理的情
况下也能够准确地找到不少遗传病基因在染色体上的相对位置。

  而物理图则与遗传连锁图不同,在一幅物理图上,标记之间的距离并非用
相对遗传距离来表示,而是用DNA上实际的物理距离——碱基对(bp)表
示。也就是说,物理图是各种DNA标记在DNA片段上的实际排列图。

  物理图就某种意义上来说很类似于我们日常使用的交通地图,正如有的地
图只标出了寥寥几个大城市和一些交通要道,而有的地图则详不胜详地列出各
个级别的城市乡镇甚至一些羊肠小道一样,低分辨率的物理图也仅仅标出那些
在染色体上最为显著的标记,而高分辨率的物理图上标记密度就要密得多。

  分辨率最低的物理图就是染色体图,这是用一种特殊的染色剂使染色体显
现出明暗相间的条纹。再结合染色体本身的一些结构特征,就多少可以把一个
基因粗略地定位于某个染色体段上,但这种分辨率就好像仅仅把金字塔定位于
非洲,这种精度是远远无法满足基因时代的要求的。

  为了提高分辨率,人们开始使用一种叫做原位杂交的手段,这种方法的原
理甚为简单。在实验室里预先制备一些与染色体上某段DNA相互补的DNA片
段,并且用荧光染色,由于这些DNA片段是用来在染色体上钓基因的,因此
可形象地称其为探针。这些探针将只与染色体DNA上互补的片段结合,或称
做杂交。

  不妨假设我们要寻找基因A的位置,释放一个能够与染色体上一已知位置
的标记进行杂交的探针,另外再释放基因A的探针,由于整条染色体上只有这
两个位置因杂交了探针而发出荧光,这样我们就可以较为准确地寻找到基因A
在染色体上所处的狭小区域。

  但即便如此,依赖这种原位杂交方法绘制的物理图仍然非常粗糙。因为只
有在这两个荧光标签距离至少达200万至500万个碱基对时,两个荧光点才能
被区分开来。

  幸好在一些功能强大的分子武器以及先进的计算机等工具的帮助下,物理
图分辨率得以进一步提高。

  例如一种常用的分子武器是限制性内切酶,它就像一把锋利的刀,可以把
一条完整的DNA分子在特定位置上切割开来。限制性内切酶能够识别一段短
的DNA序列,然后在这些位点上进行切割。例如一种常用的限制性内切酶
EcoRⅠ,它会识别DNA序列GAATTC,并在一条长长的DNA双螺旋分子上选
择所有具有这一顺序的位点切割。目前已有上百种限制性内切酶,分别识别不
同的碱基序列。因此一个DNA分子可以分别被各种类型的分子刀分割成许多
长短不一的片段。

  此外,像重组DNA和PCR这些技术问世以来均极大地推动了现代生命科
学的发展,借助这些手段,物理图的分辨率得到大幅度的提高。

  以上所有的工作,从连锁图到物理图,分辨率从低到高,都是为了人类基
因组计划的最终目的:测定30亿个碱基对的核苷酸序列。这其中自然包括测定
所有基因的核苷酸序列,以及那些目前功能尚不十分明了的那部分DNA序列
(这部分DNA很可能在基因表达调控方面起到至关重要的作用)。

  DNA测序是一项极具挑战性的工作。在人类基因组计划启动之初,平均测
序一个碱基对需要花费2~10美元,而一个训练有素的研究者一年可以精确地
测序20000到50000个碱基对序列。按照这样的技术水平,如果要在2005年完
成基因组计划,就需要花至少200亿美元以及一支由5000精英组成的工作队伍
夜以继日地测序。

  但任何事物都不应以单纯静态的眼光来对待,对于像生命科学这样一个正
处于飞速发展时期的领域更是如此。

  当然,每一次进步,每一次动态的发展,都是研究人员努力探索的结果。
为了使DNA测序在时间与经济上切实可行,科学家自人类基因组计划一开
始,就一直在致力于提高基因组作图和测序的技术水平。迄今为止,测序的大
部分过程已经实现了高速自动化,检测每个碱基对的花费也降到了1美元以
下。原本到2005年也难以实现的计划目前已决定提前至2003年全部完成,而
Celera公司更是宣称他们将在2001年就完成基因组计划。姑且不论Celera公司
究竟能否兑现其信誓旦旦的诺言,但有一点是可以肯定的,由于技术能力的提
高,人类基因组计划的完成近在咫尺。

    
任重而道远
  
  但即使完成人类基因组的测序工作也只是万里长征走完的第一步,10万个
结构基因只占人类整个基因组序列的5%左右,在庞大的基因组中寻找基因,研
究基因的功能以及它们的调控方式是一件更加艰巨而充满挑战性的任务。

  研究家族系谱在寻找一些基因时显得特别有用。如在某个家族中,糖尿病
的发病率较普通人群显著增高,分析比较这个家族中各个成员的DNA,搜寻到
一段仅在所有患者中才出现的特殊DNA序列,借助这一标记就可能寻找到糖
尿病的致病基因。

  同时,凭借一些猎取基因的计算机程序如GRAIL,能够在现有的碱基数据
中鉴定可能的基因。因为基因组中的编码区和非编码区有很多差别,如利用某
段DNA序列出现的频率,基因边界附近特定的标记等等,GRAIL就借助这些
特征从碱基序列的数据库中鉴别可能的基因。

  说到这里,不得不提及一门新兴的学科:生物信息学。随着基因组计划的
飞速进展,序列数据库里的数据正在呈指数级速度增长,如何有条理地储存、
组织乃至分析这些数据成了当务之急。一门崭新的交叉学科——生物信息学便
应运而生了。

  生物信息学所涉及的范围甚广,最为简单的任务包括收集整理以及维护生
物信息的数据库。所测得的所有碱基对顺序以及由此引出的蛋白质序列构成这
个数据库的主体,如何管理好这样一个庞大而且还在不断递增的数据库显得尤
为重要,同时还应设计一个直观清晰的操作界面和方便快捷的存取方式,使得
位于世界各地的研究者都可以迅速有效地获取自己需要的信息。

  虽然要出色地完成这样的工作已着实不易,但这还只是生物信息学家小试
牛刀,因为这些数据如果得不到进一步有效合理的分析,就如同我们收到那些
充满乱码的文章一样一文不值。一段DNA序列并不等同于一个基因,它可能
仅仅是基因的部分,也可能包含有好几个不同基因。不过好在由于进化的同源
性,各种基因往往都含有一些类似的片段。基于这个事实,使得生物信息学家
可以有效地参与到“猎取基因”的活动中来。

  但即使寻找到这些基因,工作还远未结束,对于生物信息学家来说,还有
另一项更为重要的任务就是研究基因的功能。根据基因序列推测其表达的产
物,然后根据氨基酸顺序推测这个蛋白质的空间构形和功能。

  信息科学在生命科学领域的介入大大加速了人类基因组计划的进程,并且
为研究基因功能提供了强有力的预测工具。
【三思言论集】 欢迎给制作人来信:jasper_uk@sina.com