人类基因组测序

其实,生物学真正需要的是一个庞大的信息库——对几种关键生物的遗传结构的详细了解。其中包括人类,原因很明显。

——罗伯特·辛斯海默

圣克鲁斯工作室,1985年5月

1939年,在著名科学家阿尔伯特·爱因斯坦向富兰克林·罗斯福送达一封信件后,曼哈顿计划启动了。这封信件的内容现在已经尽人皆知:根据爱因斯坦对欧洲各地科学进展的了解,他认为我们已经具备了制造一种强力炸弹的技术可行性。通过这一绝密计划,人们实现了两种核链式反应的途径。在第二次世界大战末期,它们被部署在原子弹里,投放到了长崎和广岛。后续美国能源部领导发起的所有“大科学”项目都以曼哈顿计划的组织形式与工程模式为典范。

随着生物技术的诞生和人类遗传学研究的进步,从1985年左右开始,知名生物学家们和能源部健康与环境研究办公室的管理人员就在各种会议上提出并讨论了对整个人类基因组进行测序的提议。[60][61]这一项目被美国能源部称为人类基因组计划,它旨在为生物学和医学研究提供宝贵的信息资源,展示美国在科学领域的竞争力。同时,作为美国能源部评估核武器与核能源健康风险的任务的一部分,人类基因组参考序列可以成为一个理想的选择,帮助能源部评估辐射和能量透射造成的遗传损伤。但对生物学界来说,这是一个极其大胆的目标。与曼哈顿计划不同的是,这个项目的每一阶段都没有明确的技术路线。

在1985年的圣克鲁斯会议上,研讨会与会者明确了几项必须满足的要求。其中,至少3项对人类基因组测序至关重要的技术仍然不够成熟。首先,我们需要分子技术来构建基因组的物理和遗传图谱。戴维·博特斯坦首创的遗传定位技术为我们带来了曙光。当时,这一技术正在逐渐成熟,并可能用于定位人类基因组中的致病基因。[62]另外两个实验室正在同时进行基因的物理定位工作:华盛顿大学的梅纳德·奥尔森团队在研究酵母基因组,而剑桥大学的约翰·萨尔斯顿关注线虫研究。这两项工作提供了人类基因组物理定位的技术可行性,但它们的方法对大型基因组来说可能过于烦琐。[63][64]奥尔森开发出了最早一代计算算法,从限制酶处理后的DNA产物中恢复基因定位信息。

自动DNA测序技术也是必不可少的。但在当时,只有一个实验室实现了这项技术。1985年,第一台原型DNA测序仪刚刚在帕萨迪纳的加州理工学院的勒罗伊·胡德团队中建成。[65]与测序相关的问题是,大家并不清楚我们需要什么样的计算方法来辅助测序与重构基因组,也不知道如何处理、储存和分析这些信息。第一个核苷酸序列匹配与比对算法慢得出奇,根本没有办法扩展到高通量数据分析的场景。此时,距离我们发明那些关键算法——测序质量评估、将测序片段组装为基因组,还有很长的一段时间。更要命的是,人们甚至不知道到底应该选择什么样的测序方式,也不清楚实现基因组测序计划需要解决什么样的计算问题。在1985年,测序完成的最大基因组是EB病毒[66],一共有1.72×105个碱基。人类基因组大约有3×109个碱基。打个比方,这就好像我们的目标是抵达距地球9 000万英里[67]的太阳。当时,我们已经通过商业飞行器完成了旧金山到巴黎的5 500英里航程。为了完成剩下的旅程,我们必须打造一艘航天器。对怀疑论者而言,实现这一生物学领域的“大科学”项目似乎是白日做梦。

在1985年举行的圣克鲁斯会议上,12位专家打成了平手:一半赞成,一半反对。麻省理工学院的遗传学家博特斯坦是人类基因组测序项目的坚定反对者。博特斯坦以及其他科学家担心这样的大型科学项目会影响那些小型研究组继续从美国国立卫生研究院获取RO1经费。另一些来自科学界和国会的反对者则对项目预算持有异议。据初步估计,这一项目将在未来的15年间花费10亿~30亿美元。除此之外,人们对科学的政治化、项目如何组织以及谁来决定项目的科学重要性等问题均有争议。一些研究人员认为,获取染色体全部DNA序列并没有什么意义,他们更加关心外显子中包含的蛋白质编码序列。但我们无法轻易从真核基因的基因组DNA中分辨出内含子或外显子。由于当时的基因组项目并未包含基因发现算法的开发,我们只能通过信使RNA转录物分析获取编码序列信息。

与之相反的是,分子生物学家和人类遗传学家对人类基因组项目热情高涨。在他们的宏伟愿景里,全面解读我们自己这种物种的基因组序列,将会极大地帮助我们理解人类本质、实现医学突破。当时盛行的还原论的拥趸认为,基因组序列信息将为我们揭示每一个基因的奥秘,这将是通向所有生物学秘密的钥匙。从遗传学家的角度来看,基因组研究将极大地推动医学发展。他们期冀测序与遗传变异名录的建立能够揭露约3 000种已知遗传疾病的病因。后来,人们意识到这种观点过于理想化与简单化。例如,对精神分裂症而言,尽管我们掌握了丰富的家族史和病史信息,以及精神分裂症患者的已知基因变化,但我们仍对这种疾病的神经病理学细胞基础知之甚少,针对各种神经递质系统的治疗方法也均以失败告终。

沃尔特·吉尔伯特是基因组计划的狂热支持者之一。那时,他刚刚离开渤健(属于最早一批开发基于重组DNA技术疗法的生物科技公司),回到哈佛大学。但是,吉尔伯特不相信政府的努力会取得成功,在詹姆斯·沃森领导的探索人类基因组计划的美国国家科学院委员会里,吉尔伯特一直是刺头一样的存在。[68]后来,吉尔伯特退出了这一委员会,开始做出将基因组测序私有化的努力——为他新孵化的灵感,一家名为基因组公司的初创公司寻找风险投资。[69]这是一个颇为大胆的举动。吉尔伯特第一次管理生物技术公司的经历并不成功,他在1984年被迫辞去了渤健首席执行官的职务。此前两年,渤健一直处于亏损状态,考虑到与同类型优质公司,尤其是旧金山的基因泰克公司的竞争,情绪紧张的投资者想要一位商业领导经验更加丰富的管理者。但抛开商业经历不谈,吉尔伯特是一位才华横溢、富有创新精神的科学家,自20世纪60年代初以来,他就为分子生物学领域贡献了诸多基础性发现。1980年,吉尔伯特因开发DNA测序技术与弗雷德里克·桑格共同获得诺贝尔化学奖。

吉尔伯特热衷于推进他自己的人类基因组测序计划,并将基因序列信息转化为商业利润。这种想法引起了许多人的担忧,甚至引发了伦理问题。一家私营企业怎么可以拥有基因组信息?如果你拥有一个新测序的DNA片段,那么其是否会被视作一种新颖的“物质组成”,并能够申请专利?对风投资本家来说,他们无法想象其中可以盈利的商业模式,也不知如何评估基因数据市场的规模。最终,由于1987年10月的股市崩盘,基因组公司从未实现腾飞。然而,10年之后,基因组测序领域的同人们震惊地发现,在人类基因组测序计划逐步推进的时候,生物学家与生物技术企业家克雷格·文特尔成立了一家私人公司——塞雷拉基因组公司,其与政府资助的项目展开了竞争。文特尔的目标是通过一个碱基接一个碱基的测序,实现基因组信息的商业化。

尽管美国国立卫生研究院支持的学术界整体上对人类基因组测序项目兴致不高,国会却非常看好这一疯狂的想法。1988年,国会向人类基因组计划拨款,这笔款项流向了美国能源部与美国国立卫生研究院,双方同意合作推动项目进行。这一计划草案于1990年4月公布,第一个5年目标是完成相应技术的开发,第二阶段则预计在2005年完成完整基因组测序,项目整个生命周期的预算估计为30亿美元。美国能源部的工作将由3个具有出色技术开发经验的国家实验室牵头:劳伦斯·利弗莫尔、劳伦斯·伯克利和洛斯·阿拉莫斯国家实验室。美国国立卫生研究院则成立了一个专门的机构——人类基因组研究办公室来监管测序项目,由沃森兼职管理。项目的另一项战略举措是招徕全球顶级研究中心里从事基因组测序工作的实验室,并以国际人类基因组测序联盟的名义推动各组织间的合作。几年之后,美国国立卫生研究院成立了国家人类基因组研究中心,其在1992年沃森离职后由弗朗西斯·柯林斯领导。人类基因组计划于2003年正式完成,估计耗资27亿美元——提前了2年,节约了3亿美元预算。

自2001年人类基因组工作草图发表以来,人类基因组计划已经成了载入史册的巨大成就,每一步突破都得到了详尽记录。[70][71]不管作为政府项目还是私人项目,我们能够完成这一不可能的挑战,离不开最初对它的工程化设计。美国能源部就是为了管理这样高预算的大型技术开发项目而存在的,其涉及的项目从望远镜到高能物理设备,不一而足。人类基因组计划的推进也伴随着DNA测序仪器、DNA序列组装策略和基因组中心之间项目数据协调等领域源源不断的技术创新。对包含30亿个碱基对的人类基因组进行测序,这一愿景驱使测序通量指数级提升,测序成本大幅降低,并同时推动了许多其他重要的基因组学项目。

在人类基因组项目的初期,人们没有意识到,如果一直采取最初的方式,对嵌入大量克隆载体的重叠、连续DNA片段进行测序,我们就无法在10年之内完成测序。直到全基因组鸟枪法出现,完成基因组测序才成了可能。全基因组鸟枪法测序的概念于1981年提出,后续由基因组研究所的克雷格·文特尔实现了大规模开发。[72][73]1995年,基因组研究所宣布了一项开创性的研究成果,他们利用鸟枪法完成了流感嗜血杆菌的测序,这也标志着DNA测序能力的腾飞(见表1—2)。从1965年测定第一个DNA分子,到完成第一个人类基因组测序,随着时间的推移,推动研究取得进展的力量由化学突破转变为设备发展,最终,大规模并行测序和与之相匹配的高性能计算帮我们实现了目标。

表1—2 DNA测序的里程碑事件——从单基因到宏基因组

在人类基因组计划的整个生命周期中,生物信息学和计算生物学技术得以诞生并发展。在基因组测序接近完成的时候,信息技术的重要性越发凸显——DNA序列组装需要大量的CPU与内存。人类基因组计划建立了一个全新的生物学研究框架,为生物学研究带来了影响深远的益处。从此,科学家不再需要在实验之前就选定基因、变异或细胞机制作为假设验证的对象,而是可以客观全面地从基因组的角度看待问题。从人类学到动物学,人类参考基因组序列的完成为我们打开了跨越不同领域的发现之门。

现在看来,信息革命带来的强大能力是高科技领域赋予生物学的重要礼物。推动人类基因组计划的几位首席科学家在2003年回忆了计算在项目中的重要性。戴维·博特斯坦说,项目完成过程中最令人惊讶的一点是,如果没有计算机,就不会有人类基因组计划。梅纳德·奥尔森说:“在这之前,整个计算基础体系都不存在。”[74]对加州大学圣克鲁斯分校的戴维·豪斯勒来说,他的同事吉姆·肯特的工作直接反映了计算的重要性。吉姆·肯特负责最终的基因组组装,是基因组组装软件和基因组浏览器软件的主要开发人员。[75][76]人类基因组计划的宏伟壮丽激发了豪斯勒心中的诗意:

我们意识到——我们有一种走进历史的感觉,就是这样!这是世界——整个世界第一次看到它世代继承的基因遗产。人类是38亿年进化的产物。这就是我们的祖先历经无数次伟大胜利和沉重失败,为我们精心雕琢出的令人赞叹的信息序列。这是我们第一次阅读它。我们真的在阅读祖先传承下来的有关生命的密码。[77]