| Home | News | Magazine | Library | Encyclopedia | Review | Essay | Forum |
2002
|
![]() |
|
|
![]() 7月中旬,在人类基因组测序方面大出风头的美国塞莱拉基因公司宣布,他们在完成了人类基因组工作草图之后,已经开始了围绕人体蛋白质进行的研究,以全面破解主导人体内所有化学反应的蛋白质,了解人体所有蛋白质之间的功能及其相互间的关系、以及它们引发疾病的原理。 业内人士认为,此举将促进该公司从提供单纯基因信息迈向工业化制药。这种研究被称为蛋白质组学,目前已有不少科学家在进行这方面的工作,但以商业为目的的研究,这还是第一次。这也意味着随着人类基因组大规模测序工作接近尾声,以功能基因组学和蛋白质组学为主要研究内容的后基因组时代来临。 人类尚未破解生命之谜“前一段在报道人类基因组序列工作草图完成时,不少媒体都使用了‘破解生命之谜’、‘解读生命天书’等词,其实这种表述是不准确的。”中国科学院上海生命科学研究院副院长赵国屏教授在7月初接受记者采访时一再强调这一点。“完成人类基因组测序,仅仅是在破解生命之谜的道路上迈出了一步,艰辛而繁重的研究还在后面。” 为了进一步解释这种说法,赵国屏教授做了一个很形象的比方:构成英语的基础是26个字母。这些字母构成单词、句子乃至文章。从单词到文章,在不同层次上,它们都或多或少含有“信息”。但将这26个字母胡乱排列,就不可能含有任何信息,而只是堆“文字垃圾”。包含人类全部遗传信息的24条染色体的DNA,是由30亿个四种不同的核苷酸组成;遗传信息的秘密,就在于这四种核苷酸的有序排列。形象地说,它们以一定的规律排列,组成“单词、句子、标点符号、段落”,最终组成一篇孕育和传递生命的宏文巨著! 赵国屏说,“人类基因组计划”就是测定全部30亿个核苷酸的排列次序。以每个核苷酸作为一个字符来印书,就相当于印制3000本每本1000页每页1000字的“天书”!完成测序只不过是我们打开了这本天书,但我们仍然不能读懂它,这里面包含的信息量太大了。凭借今天人类所掌握的“遗传密码”知识,我们基本上可以从这第一步的研究成果中找出大约十万个基因。而这些基因仅是遗传指令语句中的一部分“实词”;它们在“遗传语文”中的意义和作用,多数还不清楚。对干编码操纵基因组运作的,占基因组序列叨%的“谓语部分”之重要组成成分,包括许多“虚词”,人们还知之甚少。一句话,要从基因组的全核苷酸序列获得完整的遗传信息,还要走很长的路。而唯有掌握这些信息,才算学会了“遗传语文”,读懂了这本“天书”。 生物信息学帮助我们解读生命 人类基因组研究的迅猛发展造成了生物学数据的迅速膨胀;对数据搜集、管理、处理、分析、释读能力的要求迅速提升。这一切靠什么来“助阵”?靠的是信息科学,靠日益先进的计算机技术。计算机数字处理速度的日新月异,使处理“海量”的人类基因组研究产出的数据及相关的大量生物信息成为可能;并直接推动生物学向深度和广度进军。当然,这同时便产生了生命科学和信息科学的重大交叉前沿学科:生物信息学。 中科院生物物理所陈润生研究员,从80年代初开始从事生物信息学的研究,他这样解释生物信息学在人类基因组和后基因组研究中的作用:大规模测序是基因组研究的最基本任务,它的每一个环节都与信息分析紧密相关。目前,从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接与组装、填补序列间隙,到重复序列标识、读图预测和基因标注的每一步都是紧密依赖基因组信息学的软件和数据库的。特别是拼接和填补序列间隙更需要把实验设计和信息分析时刻联系在一起。拼接与组装中的难点是处理重复序列,这在含有约30%重复序列的人类基因组中显得尤其突出。 “目前,生物信息学最活跃的前沿是‘基因组信息学’,它正在成为基因发现和钓取。基因组密码破译并推动实验科学的强有力工具。”陈润生先生介绍说,“人类基因组的工作草图即将完成,因此发现新基因就成了当务之急。使用基因组信息学的方法通过超大规模计算是发现新基因的重要手段,可以说大部分新基因是靠理论方法预测出来的。比如啤酒酵母完整基因组(约1300万碱基)所包含的6千多个基因,大约60%是通过信息分析得到的。当人类基因找到之后,自然要解决的问题是:不同人种间基因有什么差别;正常人和病人基因又有什么差别。这就是通常所说的单核苷酸多态性(SNPS)。构建SNPS及其相关数据库是基因组研究走向应用的重要步骤。在我国开展中华民族SNPS研究也是至关重要的。” 随着人类基因组测序逐渐接近完成,一些学者就提出如下的问题:即使我们已经获得了人的完整基因图谱,那我们对人的生命活动能说明到什么程度呢?于是他们提出了一系列由上述数据所不能说明的问题,例如:基因表达的产物是否出现与何时出现;基因表达产物的浓度是多少;是否存在翻译后的修饰过程,若存在是如何修饰的;基因敲出(knock-out)或基因过度表达的影响是什么;多基因的表现型如何等。概括这些问题,其实质应该是:我们虽然知道了基因,知道了核酸序列,但我们不知道它们是如何发挥功能的,或者说它们是如何按照特定的时间、空间进行基因表达的,表达量有多少。为了得到基因表达的功能潜,国际上在核酸和蛋白质两个层次上都发展了新技术。这就是在核酸层次上的DNA芯片技术和在蛋白质层次上的二维凝胶电泳和测序质谱技术,也称蛋白质组技术。 作为我国为数不多的生物信息学领域研究人员,天津大学张春霆院士的研究在国际同行中也颇受重视,他这样归纳了生物信息学:生物信息学是一门交叉学科,是在生命科学的研究中,综合运用数学、计算机科学和生物学的各种工具,对生物信息进行获取、处理、储存、检索、解释和分析,来阐明和理解大量数据所包含的生物学意义。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是对世纪自然科学的核心领域之一。 张春霆院士说,生物信息学的研究重点主要体现在基因组学和蛋白组学两方面,具体说,是从核酸和蛋白质序列出发,分析序列中表达的结构与功能的生物信息。生物芯片(Biochip)的应用将为上述研究提供最基本和必要的信息及依据,成为基因组信息学研究的主要技术支撑。生物信息学的发展为生命科学的进一步突破及药物研制过程革命性的变革提供了契机。 就人类基因组来说,得到序列仅仅是第一步,后一步的工作是所谓后基因组时代的任务,即收集、整理、检索和分析序列中表达的蛋白质结构与功能的信息,找出规律。生物信息学将在其中扮演至关重要的角色。 |
|
| 首页 | 版权声明 | 本站导航 | 关于本站 | 联系我们 ©1999-2002 www.OurSci.org,All Rights Reserved. |