科技日报北京1月13日电(记者张佳欣)随着基因测序进入“亿级时代”,如何存储、分析和理解海量基因组数据正成为生命科学的新瓶颈。12日发表在《自然·遗传学》上的一项研究称,美国加州大学圣迭戈分校领导的团队开发出一种全新的“压缩式泛基因组”数据结构,可将数百万乃至上亿个基因组压缩整合在一个统一框架中,为大规模基因组研究打开新空间。
这张图展示了PanMAN技术能够在极小的数据存储需求下处理海量基因数据。图片来源:美国加州大学圣迭戈分校泛基因组学是生物信息学的一个分支,研究的是同一物种中大量不同个体的基因组。与只使用单一参考基因组相比,这种方法能更全面地呈现一个物种内科技日报多样性都至关重要。然而,尽管测序成本不断下降,现有泛基因组的数据结构仍难以高效表达数百万基因组之间的复杂关系,尤其是它们的共同进化历史和突变路径。
此次,团队开发了一种名为“泛基因组突变标注网络”(PanMAN)的新型数据结构与文件格式。该方法不仅大幅压缩了泛基因组数据规模,还能同时编码系统发育关系、突变信息和全基因组比对,从而在“省空间”的同时保留关键生物学信息。
PanMAN由一组“突变标注树”组成。每棵树以一个祖先基因组为根节点,在不同分支上记录替换、插入和缺失等突变。多棵树再通过网络结构连接,用于表达重组和水平基因转移等复杂遗传事件。由于每一次突变只在其发生的分支上存储一次,而不是在每个基因组中重复记录,这种表示方式能够充分利用共同祖先关系实现高效压缩。
团队已将该方法应用于微生物基因组分析,并构建了目前规模最大的新冠病毒泛基因组,覆盖超过800万个病毒基因组。采用PanMAN表示后,这些数据仅需366MB的存储空间,约为对应的全基因组比对所需空间的1/3000。
团队指出,如果将该方法扩展到人类基因组,将有望显著改变大规模遗传数据的存储、共享和分析方式,并为研究人类群体的遗传多样性、疾病机制和进化历史提供更高分辨率的工具。
“数据、模型和训练都是我们自己做的,我们将开放数据和模型,供每一位开发者免费使用。”12月15日,北京中科闻歌科技股份有 近期,多所高校组织了钓鱼邮件网络安全演练,结果显示部分高校有相当比例的师生“中招”。 例如,太原工业学院微信公众 本次甘肃积石山6.2级地震,震中距青海省省界最近距离5公里,青海多地震感强烈。 在青海省海东市民和县中川乡金田村, 陈志潜(1903—2000),生于四川成都。公共卫生学家、医学教育家、中国近现代农村公共卫生体系的开创者。1929年毕业于北京协 ■本报记者 冯丽妃 日本当地时间1月1日16时10分,日本西海岸石川县能登半岛发生7.6级地震,震源深度30公里。 截至 美国哈佛大学校长克洛迪娜·盖伊当地时间1月2日发表声明,宣布辞去哈佛大学校长一职。 盖伊在声明中说,她 。本文链接:新数据结构可压缩整合上亿基因组http://www.sushuapos.com/show-11-30609-0.html
声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
上一篇: 质谱分析技术能精准“分拣”检测
下一篇: 特朗普盯上格陵兰岛,科学家抗议