众所周知,人类基因组计划宣告完成后产生了一个基于有限个体的人类参考基因组序列,这也是之后众多分子生物学实验研究的参照基础。但随着对人类基因组测序研究的广泛开展、测序个体数量的不断增加,科学家们发现,现有的人类基因组参考序列尚不够完整,特别是在一些特定的人群或个体基因组中被测序到现有人类基因组参考序列中缺失的片段,也就是说,人类基因组的序列其实比已知的基因组参考序列要复杂,尚有很多未知序列(或者说暗物质)有待于科学家们通过不断的深化研究加以发现。
泛基因组(Pan-genome)是指某个群体中所有个体基因组的总和。随着测序技术的进展,针对人类某个群体的多个个体基因组的测序数据不断积累增加,给泛基因组研究提供了前所未有的契机。然而,人类全基因组测序数据量庞大,现有针对如此大型基因组数据进行拼接研究的方法学有限,如果研究方法不加以创新,在分析过程中容易引入较多的拼接错误,且分析速度缓慢。为此,该联合研究团队进行了分析方法的创新,他们首先对原有真核生物泛基因组分析流程进行了改进,包括引入节约内存的拼接方法,可直接对每个个体的所有测序数据进行拼接以降低拼接错误,优化了泛基因组分析步骤,明显提高了海量测序数据的分析速度和准确率。
新型分析方法对185个中国汉族人的全基因组深度测序分析,同时对开放数据库内90个中国汉族人全基因组深度测序数据测试显示,在中国汉族人全基因组测序数据中至少存在29.5Mb不同于人类参考基因组的新序列,暨人类基因组参考序列中漏掉的序列。通过新基因预测分析,发现188个新基因,且新序列中约40%仅见于中国汉族人群。
该新型方法的创立不仅仅为深入研究人类进化、人类迁徙规律、种族基因组差异以及新基因与人类疾病相关性提供了重要工具,还为其它具有较大基因组的高等动物泛基因组研究提供了重要分析工具。
该项研究是在上海交通大学医工交叉重点项目、国家科技部及卫健委重点研发计划、国家自然科学基金委以及上海市科委重点项目支持下完成。项目实施过程中还得到上海市转化医学协同创新中心和上海交通大学高性能计算中心的大力支持。
韦朝春,上海交通大学生命科学技术学院生物信息学与生物统计学系教授/博士生导师。先后于北京大学和美国华盛顿大学(圣路易斯)获得数学学士、信息处理硕士和计算机科学博士学位。主要研究方向为基因组学和进化基因组学。具体研究内容包括基因组中的功能因子的识别及其进化分析、真核生物泛基因组学、肿瘤基因组学和宏基因组学等。
于颖彦,上海交通大学医学院附属瑞金医院教授/博士生导师,上海消化外科研究所副所长,中国抗癌协会胃癌专业委员会委员,中国医药生物技术协会生物样本库分会及慢病管理分会常委。上海市浦江人才与上海市优秀学术带头人。从事消化病理、肿瘤分子分型、生物标志物和转化医学研究。承担国家重点研发计划精准医学专项和慢病专项,国家自然科学基金、上海市科委重点项目及上海交大医工交叉重点项目等。
论文链接:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-019-1751-y
① 凡本站注明“稿件来源:中国教育在线”的所有文字、图片和音视频稿件,版权均属本网所有,任何媒体、网站或个人未经本网协议授权不得转载、链接、转贴或以其他方式复制发表。已经本站协议授权的媒体、网站,在下载使用时必须注明“稿件来源:中国教育在线”,违者本站将依法追究责任。
② 本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。