Human Genome Project
The Profile of the Project
人类基因组计划(Human Genome Project,简称HGP)是由美国科学家于1985年率先提出,又于1990年正式启动的。来自美国、英国、法国、德国、日本和中国科学家共同参与了这一预算达30亿美元的人类基因组计划。按照这个计划的设想,在2005年,要把人体内约10万个基因的密码全部解开,同时绘制出人类基因的谱图。换句话说,就是要揭开组成人体4万个基因的30亿个碱基对的秘密。
这一计划的最终目的是测定人类基因组30亿个基本化学组成(称为碱基对或核苷酸),进而揭开与人类的生老病死有关的数万个基因的相互关系。1984年,美国能源部开会,开始酝酿“人类基因组计划”。1989年,美国能源部和美国国家卫生研究所提出了人类基因图谱工程。美国在1990年10月1日率先启动人类基因组计划。美国人类基因组顾问委员会委员梅纳德•奥尔森是人类基因组计划最早的推动者之一,另外美国一个测序中心的主任罗伯特•沃特斯顿以及英国的人类基因组总负责人均表示支持。美国完成人类基因组计划近54%的工作量,为人类基因组计划最大的贡献国。英国是人类基因组计划的第二大贡献国,共34%的贡献都是由Wellcome基金会资助的Sanger中心完成的。日本、法国、德国对人类基因组计划的贡献分别为6.8%、2.8%与2.2%。中国承担了3号染色体区域短臂端粒侧约30 cM,约占人类整个基因组1% 的测序工作。中国的华大基因、国家自然科学基金会、中科院遗传所南方基因中心、北方人类基因组中心等单位及于军、杨焕明、汪建、刘斯奇、吴旻、强伯勤、陈竺等也给予人类基因组计划大力的推动。
The Importance of the Project
目的
人类是在“进化”历程上最高级的生物,对人类基因的研究有助于认识自身、掌握生老病死规律、疾病的诊断和治疗、了解生命的起源。
测出人类基因组DNA的30亿个碱基对的序列,发现所有人类基因,找出它们在染色体上的位置,破译人类全部遗传信息。
在人类基因组计划中,还包括对五种生物基因组的研究:大肠杆菌、酵母、线虫、果蝇和小鼠,称之为人类的五种“模式生物”。
HGP的目的是解码生命、了解生命的起源、了解生命体生长发育的规律、认识种属之间和个体之间存在差异的起因、认识疾病产生的机制以及长寿与衰老等生命现象、为疾病的诊治提供科学依据。
意义
人类基因组计划是一项规模宏大,跨国跨学科的科学探索工程。其宗旨在于测定组成人类染色体(指单倍体)中所包含的30亿个碱基对组成的核苷酸序列,从而绘制人类基因组图谱,并且辨识其载有的基因及其序列,达到破译人类遗传信息的最终目的。基因组计划是人类为了探索自身的奥秘所迈出的重要一步。
“人类基因组计划”与”曼哈顿原子弹计划”和”阿波罗计划”并称为二十世纪三大科学计划。
The Achievement of the Project
2000年6月26日,美国总统克林顿与英国首相布莱尔共同宣布人类基因组计划工作草图完成;次年2月,工作草图的具体序列信息、测序所采用的方法以及序列的分析结果被国际人类基因组测序联盟和塞雷拉基因组的科学家分别公开发表于《自然》与《科学》杂志。这一工作草图覆盖了基因组序列的83%,包括常染色质区域的90%(带有150,000个空缺,且许多片断的顺序和方位并没有得到确定)。
2001年2月12日,美国Celera公司与人类基因组计划分别在《科学》和《自然》杂志上公布了人类基因组精细图谱及其初步分析结果。
2003年,发现了新的方法通过检测另外的库来关闭Gaps。使用FISH技术或其他方法来分析没有闭合的Gaps大小。22,21条染色体就是用这种方式。
1999年至2006年,完成了全部23条染色体的测序工作,具体如下:
1999年12月,22号染色体测序完成;
2000年5月,21号染色体测序完成;
2001年12月,20号染色体测序完成;
2003年2月,14号染色体测序完成;
2003年6月,男性特有的Y染色体测序完成;
2003年5月和7月,7号染色体测序完成;
2003年10月,6号染色体测序完成;
2004年4月,13号和19号染色体测序完成;
2004年5月,9号和10号染色体测序完成;
2004年9月,5号染色体测序完成;
2004年12月,16号染色体测序完成;
2005年3月,X染色体测序完成;
2005年4月,2号和4号染色体测序完成;
2005年9月,18号染色体测序完成;
2006年1月,8号染色体测序完成;
2006年3月,11号,12号和15号染色体测序完成;
2006年4月,17号和3号染色体测序完成;Human Genome Project Information
2006年5月,1号染色体测序完成;Human Genome Project Information
2004年,国际人类基因组测序联盟的研究者宣布,人类基因组中所含基因的预计数目从先前的30,000至40,000(在计划初期的预计数目则高达2,000,000)调整为20,000至25,000。预期还需要多年的时间来确定人类基因组中所含基因的精确数目。
截止到2005年,人类基因组计划的测序工作已经完成。
The Research Contents of the Project
遗传图谱
遗传图谱又称连锁图谱(linkage map),它是以具有遗传多态性(在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于1%)的遗传标记为“路标”,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cM)为图距的基因组图。遗传图谱的建立为基因识别和完成基因定位创造了条件。意义:6000多个遗传标记已经能够把人的基因组分成6000多个区域,使得连锁分析法可以找到某一致病的或表现型的基因与某一标记邻近(紧密连锁)的证据,这样可把这一基因定位于这一已知区域,再对基因进行分离和研究。对于疾病而言,找基因和分析基因是个关键。
物理图谱
物理图谱是指有关构成基因组的全部基因的排列和间距的信息,它是通过对构成基因组的DNA分子进行测定而绘制的。绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。DNA物理图谱是指DNA链的限制性酶切片段的排列顺序,即酶切片段在DNA链上的定位。因限制性内切酶在DNA链上的切口是以特异序列为基础的,核苷酸序列不同的DNA,经酶切后就会产生不同长度的DNA片段,由此而构成独特的酶切图谱。因此,DNA物理图谱是DNA分子结构的特征之一。DNA是很大的分子,由限制酶产生的用于测序反应的DNA片段只是其中的极小部分,这些片段在DNA链中所处的位置关系是应该首先解决的问题,故DNA物理图谱是顺序测定的基础,也可理解为指导DNA测序的蓝图。广义地说,DNA测序从物理图谱制作开始,它是测序工作的第一步。制作DNA物理图谱的方法有多种,这里选择一种常用的简便方法──标记片段的部分酶解法,来说明图谱制作原理。
序列图谱
随着遗传图谱和物理图谱的完成,测序就成为重中之重的工作。DNA序列分析技术是一个包括制备DNA片段化及碱基分析、DNA信息翻译的多阶段的过程。通过测序得到基因组的序列图谱。
基因图谱
简介
基因图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。在人类基因组中鉴别出占具2%~5%长度的全部基因的位置、结构与功能,最主要的方法是通过基因的表达产物mRNA反追到染色体的位置。
意义
它能有效地反应在正常或受控条件中表达的全基因的时空图。通过这张图可以了解某一基因在不同时间不同组织、不同水平的表达;也可以了解一种组织中不同时间、不同基因中不同水平的表达,还可以了解某一特定时间、不同组织中的不同基因不同水平的表达。人类基因组是一个国际合作项目:表征人类基因组,选择的模式生物的DNA测序和作图,发展基因组研究的新技术,完善人类基因组研究涉及的伦理、法律和社会问题,培训能利用HGP发展起来的这些技术和资源进行生物学研究的科学家,促进人类健康。
The Contributions of the Project
对人类疾病的贡献
人类疾病相关的基因是人类基因组中结构和功能完整性至关重要的信息。对于单基因病,采用“定位克隆”和“定位候选克隆”的全新思路,导致了亨廷顿氏舞蹈症、遗传性结肠癌和乳腺癌等一大批单基因遗传病致病基因的发现,为这些疾病的基因诊断和基因治疗奠定了基础。对于心血管疾病、肿瘤、糖尿病、神经精神类疾病(老年性痴呆、精神分裂症)、自身免疫性疾病等多基因疾病是疾病基因研究的重点。健康相关研究是HGP的重要组成部分,1997年相继提出:“肿瘤基因组解剖计划”“环境基因组学计划”。
对医学的贡献
基因诊断、基因治疗和基于基因组知识的治疗、基于基因组信息的疾病预防、疾病易感基因的识别、风险人群生活方式、环境因子的干预。
对生物技术的贡献
基因工程药物
分泌蛋白(多肽激素,生长因子,趋化因子,凝血和抗凝血因子等)及其受体。
诊断和研究试剂
基因和抗体试剂盒、诊断和研究用生物芯片、疾病和筛药模型。
细胞工程
胚胎和成年期干细胞、克隆技术、器官再造技术。
The Project with China
作为继美、英、法、德、日6个成员国之后中唯一的发展中国家,中国对人类基因组的的贡献不只是工作量,在这个划时代的里程碑上,已经刻上了中国人的名字,中国在生物组学的发展上占有一席之地,通过参与这一计划,我们可以分享数据、资源、技术与发言权,最终来开发我国自己的基因资源。中国的加入改变了国际人类基因组计划原有的组织格局,提高其国际合作的形象,带来了国际社会对“国际人类基因组计划精神”的支持,联合国教科文组织关于人类基因组基本信息免费共享的声明,就是在中国代表的直接努力下促成的。可以说,中国需要人类基因组计划,而基因组计划也使我国的基因测序能力进人世界前列,在中国本土成长起来的作为我国基因组学的典型代表、创新型机构——华大基因已经成为全球最大的基因组学中心。
因此,人类基因组计划对华大基因的影响力也是举足轻重的,华大基因也因此而“生”的伟大。华大基因随着“国际人类基因组计划1%项目”的正式启动而诞生。华大基因自成立之日起就站在世界同步的轨迹上,使得中国的基因组学研究位于跟踪——参与——同步的国际地位。为后期的华大基因在基因组上的引领及跨越式发展奠定了基础。
在人类基因组计划之后,人类基因研究开始朝着与人类生育健康、肿瘤个体化治疗、病原微生物、遗传性疾病、血液病等的相关疾病的基因检测方向发展,未来,医疗技术将从末端的疾病治疗,逐步走向前端的基因诊断和预防,个性化医疗及精准医疗。人类将通过基因检测技术、通过个性化医疗以更精确的诊断,预测潜在疾病的风险,提供更有效、更有针对性的治疗,预防某种疾病的发生,比“治有病”更节约治疗成本。
华大基因希望凭借全球领先的基因组学技术,华大基因将千万家庭远离遗传性出生缺陷,肿瘤能早期检测和诊断并能全景式、定期监控个人健康动态,人人做到“我的基因我知道,我的健康我做主”。其研究方向主要涉及遗传性出生缺陷、肿瘤、心脑血管疾病、精准医疗
# The ENCODE Project
The Profile of the Project
The ENCODE Project(即Encyclopedia Of DNA Elements,中文译作DNA元件百科全书计划),是美国国立人类基因组研究院(US National Human Genome Research Institute,NHGRI)在2003年9月启动的跨国研究项目。该项目旨在解析人类基因组中的所有功能性元件,它是人类基因组计划完成之后,又一重要的跨国基因组学研究项目。该项目联合了来自美国,英国,西班牙,新加坡和日本的32个实验室的422名科学家的努力,获得了迄今最详细的人类基因组分析数据(他们获得并分析了超过15兆兆字节的原始数据)。研究花费了约300年的计算机时间,对147个组织类型进行了分析,以确定哪些能打开和关闭特定的基因,以及不同类型细胞之间的“开关”存在什么差异。
The Achievement of the Project
近年来基因研究已经取得巨大进展。不过,迄今为止,这些研究主要还集中在编码蛋白的特定基因上,而它们所佔的比例不到整个人类基因组的2%。ENCODE计划首次系统地研究了所有类型的功能元件的位点和组织方式。
迄今为止,ENCODE计划主要集中研究了44个靶标共3000万个DNA硷基对。负责该计划数据整合和分析工作的欧洲分子生物学实验室主任Ewan Birney说:“我们的结论揭示了有关DNA功能元件构成的重要原理,为从DNA转录到哺乳动物进化的一切过程提供了新的认识。”
研究发现,人类基因组中的大多数DNA都会转录成RNA,这些副本会普遍交叠。因此,人类基因组实际上是一个非常复杂的网络,所谓的无用基因实际上非常少。基因只不过是众多具有特定功能的DNA序列类型之一。科学家们在基因之外的调控区域新发现了4491个转录启动位点,这一数字超过了已知基因的10倍。这些都挑战了长期以来的一个观点,即基因组中的基因是孤立的,同时,新的发现也支持了人类基因数量应该超过3万个的看法。
ENCODE计划的另一个巨大成就就是对哺乳动物基因组进化的认识。传统理论认为,与生理功能相关的重要DNA序列往往位于基因组中的“进化限制”区域,它们在物种进化过程中更容易保存下来。但是,最新的研究表明,大约一半人类基因组中的功能元件在进化过程中不会受到很大限制。科学家认为,哺乳动物缺乏“进化限制”这一点,很可能意味著许多物种的基因组都囊括了大量包括RNA转录副本在内的功能元件,在进化过程中,这些功能元件成了基因“仓库”。
此次ENCODE计划的成果亮点还包括:确定了许多之前不为人知的DNA转录启动位点;推翻了传统观点的认识,调控区域也有可能位于DNA转录启动位点的下游;确定了组蛋白变化的特定标记;加深了人们对组蛋白改变协调DNA复制的理解。
2012年9月5日,ENCODE项目的阶段性研究结果被整理成30篇论文发表于《自然》(6篇),《基因组研究》(6篇)和《基因组生物学》(18篇)上。
研究结果显示,人类基因组内的非编码DNA至少80%是有生物活性的,而并非之前认为的“垃圾” DNA (junk DNA)。这些新的发现有望帮助研究人员理解基因受到控制的途径,以及澄清某些疾病的遗传学风险因子。
ENCODE是人类基因组计划之后国际科学界在基因组学研究领域取得的又一重大进展。
2012年12月21日,ENCODE项目被《科学》杂志评为本年度十大科学突破之一。
The Research Contents of the Project
试点研究的内容
对编码的功能DNA进行鉴定和分类;对已存在的几种方法进行测试和比较,严格分析了人类基因组序列中已被定义的序列。
阐明人类生物学和疾病之间的关系。
对大量鉴定基因特征的方法、技术和手段进行检测和评估。
研究对象
编码蛋白基因
非编码蛋白基因
调控区域
染色体结构维持和调节染色体复制能力的DNA元件
研究特点
采用综合性研究策略
重视新技术的研发
将计划向学术界和公司开放
The Contributions of the Project
人细胞转录全景图
通过ENCODE项目,人们知道RNA是基因组编码的遗传信息的直接输出。细胞的大部分调节功能都集中在RNA的合成、加工和运输、修饰和翻译之中。研究人员证实,75%的人基因组能够发生转录,并且观察到几乎所有当前已标注的RNA和上千个之前未标注的RNA的表达范围与水平、定位、加工命运、调节区和修饰。总之,这些观察结果表明人们需要重新定义基因的概念。
人基因组中可访问的染色质全景图
DNase I超敏感位点(DNase I hypersensitive sites, DHSs)是调节性DNA序列的标记物。研究人员通过对125个不同的细胞和组织类型进行全基因组谱分析而鉴定出大约290万个人DHSs,并且首次大范围地绘制出人DHSs图谱。
基因启动子的远距离相互作用全景图
在ENCODE项目中,研究人员选择1%的基因组作为项目试点区域,并且利用染色体构象捕获碳拷贝(chromosome conformation capture carbon copy, 简称为5C)技术来综合性地分析了这个区域中转录起始位点和远端序列元件之间的相互作用。他们获得GM12878、K562和HeLa-S3细胞的5C图谱。在每个细胞系,他们发现启动子和远端序列元件之间存在1000多个远距离相互作用。
GENCODE:ENCODE项目的人基因组参照标注
GENCODE项目旨在利用计算分析、人工标注和实验验证来鉴定出人基因组中所有的基因特征。GENCODE第七版(GENCODE v7)公开发布了基因组标注数据集,包含了20687个蛋白编码的RNA基因座位、9640个长链非编码RNA基因座位,并且拥有33977个在UCSC基因数据库和RefSeq数据库中不存在的编码性转录本。它还对公开获得的长链非编码RNA(long noncoding RNA, lncRNA)进行最全面的标注。
我的认识
在上这门课之前,我从没认真想过这个问题,到底研究基因有什么用?通过这几天的学习,以及对文章所提的两个项目的检索、认识,我对基因测序这一工作,有了更深层次的认识。
虽然外界关于基因测序有不同的看法,例如有人支持,因为它可以为医学做贡献;有人反对,因为这样做相当于为基因做了一次曝光,这样一来,就有优劣基因之分。在我看来,这一任务还是利大于弊的,毕竟现在看来是这样。科学家可以通过对已有的基因测序结果的分析,总结出基因的“中心法则”,使我们对自身有了更进一步的了解。再者,基因分析有很多好的应用,通过对胎儿基因分析可以达到优生的目的,以及对有基因缺陷、先天性遗传病患者可以提供治标治本的治疗方案。
当然,要了解所有基因的功能还有很长的一段路要走。例如以前人们所认为的垃圾DNA实际上并不“垃圾”,它们在基因组的进化、每个个体的差异性以及许多其他方面扮演着重要角色,是世界上许多实验室着力研究的目标。
即使已经过了将近30年,人类基因组也没有完成“完全”测序,不过我们了解到了基因并不是静态的,而是处在复杂的变化之中,所以对人类基因的研究也是对人类自身的研究,这一研究将会一直进行下去,永无终点。
虽然人类基因组目前也只是一张初步的蓝图,需要经过更多的研究和分析。但是人类已经通过对基因组的学习,进入了医学的新纪元,为预防、诊断和治疗疾病带来了新的方法。所以对基因组的研究势必将成为人类新的曙光。
总之,我对基因组计划以及ENCODE计划充满期待与支持。
参考资料
- HGP计划百度百科:http://dwz.cn/3ITVf3
- 人类基因组计划- 维基百科http://dwz.cn/3JHOap
- 科学松鼠会之人类基因组计划 http://dwz.cn/3JHOXZ
- ENCODE项目百度百科:http://dwz.cn/3ITSPr
- Genome网 https://www.genome.gov/10005107/encode-project
- ENCODE项目官网:https://www.encodeproject.org
- “DNA元件百科全书”首批成果出炉,链接:http://big5.cas.cn/xw/kjsm/gjdt/200706/t20070619_1011212.shtml
The link of this page is https://blog.nooa.tech/articles/32469d52/ . Welcome to reproduce it!