科技日报北京1月13日电(记者张佳欣)随着基因测序进入“亿级时代”,如何存储、分析和理解海量基因组数据正成为生命科学的新瓶颈。12日发表在《自然·遗传学》上的一项研究称,美国加州大学圣迭戈分校领导的团队开发出一种全新的“压缩式泛基因组”数据结构,可将数百万乃至上亿个基因组压缩整合在一个统一框架中,为大规模基因组研究打开新空间。
这张图展示了PanMAN技术能够在极小的数据存储需求下处理海量基因数据。图片来源:美国加州大学圣迭戈分校泛基因组学是生物信息学的一个分支,研究的是同一物种中大量不同个体的基因组。与只使用单一参考基因组相比,这种方法能更全面地呈现一个物种内科技日报多样性都至关重要。然而,尽管测序成本不断下降,现有泛基因组的数据结构仍难以高效表达数百万基因组之间的复杂关系,尤其是它们的共同进化历史和突变路径。
此次,团队开发了一种名为“泛基因组突变标注网络”(PanMAN)的新型数据结构与文件格式。该方法不仅大幅压缩了泛基因组数据规模,还能同时编码系统发育关系、突变信息和全基因组比对,从而在“省空间”的同时保留关键生物学信息。
PanMAN由一组“突变标注树”组成。每棵树以一个祖先基因组为根节点,在不同分支上记录替换、插入和缺失等突变。多棵树再通过网络结构连接,用于表达重组和水平基因转移等复杂遗传事件。由于每一次突变只在其发生的分支上存储一次,而不是在每个基因组中重复记录,这种表示方式能够充分利用共同祖先关系实现高效压缩。
团队已将该方法应用于微生物基因组分析,并构建了目前规模最大的新冠病毒泛基因组,覆盖超过800万个病毒基因组。采用PanMAN表示后,这些数据仅需366MB的存储空间,约为对应的全基因组比对所需空间的1/3000。
团队指出,如果将该方法扩展到人类基因组,将有望显著改变大规模遗传数据的存储、共享和分析方式,并为研究人类群体的遗传多样性、疾病机制和进化历史提供更高分辨率的工具。
1923年2月14日,学者张君劢应邀到清华学校演讲,演讲的主题是“人生观”,要点是说明科学与人生观的差异,张君劢的观点引起地质 ? ? 近日,日本政府批准了一项立法,要求6所顶尖大学成立新的管理政策委员会,使外部专家在决策中有更大的发言权。 据《科 近日,上海市人社局等八部门联合出台《关于优化上海市博士后发展综合环境的实施意见》,新增“博士后国际合作交流”资 据微信公众号“厦门大学管理学院”发布的讣告,中共党员、厦门大学退休干部,管理学院原院长沈艺峰教授于 2024年1月2日上午 记者1月2日从中国科学院昆明植物研究所获悉,近期高黎贡山国家级自然保护区怒江管护局、贡山管护分局联合该所组成的考察 。本文链接:新数据结构可压缩整合上亿基因组http://www.sushuapos.com/show-11-30609-0.html
声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
上一篇: 质谱分析技术能精准“分拣”检测
下一篇: 特朗普盯上格陵兰岛,科学家抗议