智源大模型成果首次发表于《自然》

发布时间: 2026-02-02 10:23:52 来源：中国科学报

观看：60

1月28日，北京智源人工智能研究院（以下简称智源）多模态大模型成果Multimodal learning with next-token prediction for large multimodal models（通过预测下一个词元进行多模态学习的多模态大模型）在《自然》上线，这是我国科研机构主导的大模型成果首次发表于《自然》。

这项成果表明，只采用自回归路线，就可以统一多模态学习，训练出优秀的原生多模态大模型，对于确立自回归成为生成式人工智能统一路线具有重大意义。

《自然》点评这项成果：智源推出的Emu3模型仅基于预测下一个词元（Next-token prediction），实现了大规模文本、图像和视频的统一学习，其在生成与感知任务上的性能可与使用专门路线相当，这一成果对构建可扩展、统一的多模态智能系统具有重要意义。

据悉，“预测下一个词元”彻底改变了语言模型，促成了如 ChatGPT等突破性成果，并引发了关于通用人工智能（AGI）早期迹象的讨论。然而，其在多模态学习中的潜力一直不甚明朗。

为此，智源提出了Emu3，即基于“预测下一个词元”的全新多模态模型，将图像、文本和视频统一离散化到同一个表示空间中，并从零开始，在多模态序列混合数据上联合训练单一的深度学习模型架构。这一架构证明了仅凭“预测下一个词元”，就能够同时支持高水平的生成能力与理解能力，并且在同一统一架构下，自然地扩展到机器人操作以及多模态交错等生成任务。此外，研究团队还做了大量消融实验和分析，验证了多模态学习的规模定律（Scaling law）、统一离散化的高效性、以及解码器架构的有效性。

智源研究团队对相关研究的多项关键技术与模型进行了开源，以推动该方向的持续研究，还通过大规模消融实验系统分析了多项关键技术的设计选择，并验证了自回归路线高度通用性，使模型能够更好地对齐人类偏好。

研究表明，预测下一个词元可作为多模态模型的核心范式，突破语言模型的边界，在多种多模态任务中展现了强劲性能。

2025年10月，智源推出的原生多模态模型Emu3.5进一步通过大规模长时序视频训练，学习时空与因果关系，展现出随模型与数据规模增长而提升的物理世界建模能力，并观察到多模态能力随规模扩展而涌现的趋势，实现了“预测下一个状态”的范式升级。

成立7年来，智源聚焦人工智能技术前沿，挑战最基础的问题和最关键的难题，推进大模型技术不断演进。未来，智源将继续围绕智能与物理世界的深层关联，推进面向下一代人工智能的科研创新。

相关论文信息：https://doi.org/10.1038/s41586-025-10041-x

科技日报北京12月18日电（记者张佳欣）美国威斯康星大学麦迪逊分校工程师使用超音速冷喷涂技术，生产出一种新的核聚变“ 按照三秦英才引进计划和三秦英才特殊支持计划《实施办法》和2023年省级人才计划评审工作安排，经申报推荐、形式审查近日，“面向经济主战场共建科技创新生态”科技创新驱动高质量发展研讨会在京举行。中国科学院相关科研院所数十位专家出 12月19日，山东先进制造业人力资源服务供需对接活动在济南举办，活动由山东省人力资源和社会保障厅、山东产业技术研究 12月16日，2023第二届可持续能源发展国际会议在北京开幕。此次会议以“零碳科技、创新未来”为主题，汇聚了来自全球多编者按世界在变，变化中不断积蓄着突破的力量。局势纵横看似山重水复，历史规律昭示未来终将柳暗花明。2023年与我们挥。

本文链接：智源大模型成果首次发表于《自然》http://www.sushuapos.com/show-11-31367-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：首届科学家精神讲解员风采展示活动在京落幕

下一篇：研究人员系统总结植物转录因子研究新进展

智源大模型成果首次发表于《自然》

热门资讯

推荐资讯

科学最热文章