建立中国人自己的基因组技术体系路有多远(2)
直到2022年,“T2T”联盟填补了缺失的“拼图”碎片,发布了T2T-CHM13新版本参考基因组。在这项成果中,科学家们成功地在人类基因组中增加了大约2亿个碱基,解码了从1号到22号染色体上的大部分空缺。而唯一被遗漏的,是人类所有染色体中最小的一条——Y染色体。
2023年,随着两篇研究论文发表在顶尖学术期刊《自然》上,人类Y染色体的完整序列终于展现在世人面前。
也就是说,国际基因组计划用了30多年的时间才获得包括Y染色体在内的人类完整单倍体基因组序列。
“唐尧”课题组同样拿到了这一结果。他们在世界上首次获得包括46条染色体的真实人类二倍体基因组序列(44+XY),能99.99%准确地区分来自父本和母本的两套单倍体基因组序列。
2022年,“T2T”联盟测的是一个单倍体,即所采用的DNA序列不是来自自然人的组织样本,而是来自女性子宫中的水泡状胎块(葡萄胎)细胞株——CHM13。
当时,“T2T”联盟联合主席、美国华盛顿大学霍华德·休斯医学研究所研究员艾文·艾克勒对媒体表示:“我们现在已经补全了一个人类基因组,下一个重点任务是补全二倍体基因组的父系和母系。”
“唐尧”课题组做到了。
“和‘T2T’联盟能补上最后的‘拼图’一样,我们之所以能快速获得这一成果,也得益于DNA测序和拼接技术的快速进步,以及包括国际基因组计划在内的大量技术和理论积累。”康禹说,“我们取得成果是因为站在了前人的肩上。”
这并不是一项只要有仪器、有资金就能完成的工作。“两年里,我们的团队夜以继日,创新了大量算法和拼接方式。这才能够实现高准确度地区分相似度极高的基因片段,实现高于NIH参考基因组的准确度。”高占成说。
避免“西方人比中国人更了解中国人”的尴尬
“这是中华民族群体遗传学研究的一个新起点。”中国科学院北京基因组研究所原副所长于军说,“接下来,我们将推进其他有代表性的个体参考基因组测序,并开展不同民族等群体的测序,最终我们希望能启动全民基因组测序工程。”
回顾过去,中国在基因组学技术领域的发展,可以说是从参与到同步。
陈润生回忆说,1994年,国家自然科学基金资助开展中华民族基因组若干位点基因结构研究项目,标志着我国人类基因组研究正式启动。
1999年,中国拿到了国际人类基因组计划1%任务。以华大基因和中国科学院基因组所研究人员为主力的科学家团队,高质量完成了这一测序任务,带动我国基因组学快速发展。在过去的20多年里,我国的基因组技术和研究取得了飞跃式的进步。
在构建中华民族自己的参考基因组方面,我国科学家也一直在努力。
“炎黄一号”是全球第一例中国人标准基因组序列图谱,也是全球20亿黄种人的首个个人基因序列图。该项目完成于2007年10月11日,是我国科学家继承担国际人类基因组计划1%任务、国际人类单体型图谱10%任务后,用新一代测序技术100%独立完成的中国人基因组图谱。
随后暨南大学、中国科学院北京基因组研究所等单位陆续开展了类似研究。但受限于当时的技术手段,这些基因组并未成为我国实际应用中的参考基因组,未发挥应有价值。
2023年,复旦大学、西安交通大学、中国医学科学院等26家单位联合发布了中国人群泛基因组联盟一期研究进展。该研究初步构建了首个中国人群专属的泛基因组参考图谱,且该成果全部由中国科学家独立完成。
在此基础上,专家们认为,我国要加快构建中国人自己的基因组研究“坐标系”的步伐。
20多年前,在人类基因组计划基础上,美国正式提出全新的大科学计划——精准医学计划。该计划最终目标是测定每一个人的基因组,也称为“全民基因组计划(All of Us 研究计划)”。2022年,该计划研究项目公布了第一批近10万人的全基因组测序数据供研究人员使用。数据包括身高、体重和血压等基础数据和调查数据,例如关于参与者的人口统计数据、生活方式和总体健康状况的数据。
高占成说,一旦美国的全民基因组计划完成包括500万美籍华人在内基因组测序,完全有可能形成“别人比我们自己更了解中国人基因组”的局面。
近年来,国际科学家联合成立了人类泛基因组联盟(HPRC),试图建立更精准完整的世界主要人群的参考基因组,了解世界人口的多样性。去年5月,HPRC制作的首个人类泛基因组参考草图在《自然》发布,纳入了全球47个样本,其中包括3例中国南方汉族样本。
张学关注到一个现象:基因组领域最主要的两个国际联盟——国际人类泛基因组联盟、国际T2T基因组联盟,其中的重要成员都是来自欧美的大学和研究所,我国研究机构和实体并不在内。
“这种形势下,建立中国人自有的高质量参考基因组是防止被‘卡脖子’的关键一步。”张学说。
“接下来我们将对‘唐尧’进行进一步的解析和注释,让它能更好地应用于临床。”康禹说,我们希望基于自己的参考基因组发展出服务华人的靶向测序、基因组分析和诊疗技术,并推动未来的新药研发。
亟待构建中国人自己的基因组技术体系
受访专家预计,T2T-CHM13以其完整性和高质量,有望逐渐取代目前正在使用的GRCh38参考基因组。
陈润生和中国检验检疫科学院体外诊断试剂所副所长黄杰均建议,在新旧参考基因组交接之际,我国应建立国家标准,推广使用“唐尧”作为中国人群基因组研究和临床应用中测序和分析的标准物质和参考基因组,不再使用欧洲人的参考基因组来定义中国人的遗传变异。同时,在此基础上建立中国人基因组学知识框架和应用技术体系。
于军等科学家认为,要实现上述目标,我国人类基因组研究亟待进一步加强顶层设计和规划。“由谁来测,给谁用,数据安全如何保障,这些问题都需要系统研究。”
1993年,于军参与人类基因组计划这一里程碑式的科学计划。他在导师梅纳德·奥尔森的全力支持下,促成了中国科学家参与人类基因组计划。
多年来,中国的基因组研究计划是什么,如何建立自主的基因测序技术和数据体系,这些问题在于军的脑海中挥之不去。
于军认为,我们目前的相关研究仍然是相对零散的,开展的群体研究规模较小,且数据所有权分散在不同研究者手中,无法共享数据集成创新,造成了资源浪费。