1月28日,北京智源人工智能研究院(以下简称智源)多模态大模型成果Multimodal learning with next-token prediction for large multimodal models(通过预测下一个词元进行多模态学习的多模态大模型)在《自然》上线,这是我国科研机构主导的大模型成果首次发表于《自然》。
这项成果表明,只采用自回归路线,就可以统一多模态学习,训练出优秀的原生多模态大模型,对于确立自回归成为生成式人工智能统一路线具有重大意义。
《自然》点评这项成果:智源推出的Emu3模型仅基于预测下一个词元(Next-token prediction),实现了大规模文本、图像和视频的统一学习,其在生成与感知任务上的性能可与使用专门路线相当,这一成果对构建可扩展、统一的多模态智能系统具有重要意义。
据悉,“预测下一个词元”彻底改变了语言模型,促成了如 ChatGPT等突破性成果,并引发了关于通用人工智能(AGI)早期迹象的讨论。然而,其在多模态学习中的潜力一直不甚明朗。
为此,智源提出了Emu3,即基于“预测下一个词元”的全新多模态模型,将图像、文本和视频统一离散化到同一个表示空间中,并从零开始,在多模态序列混合数据上联合训练单一的深度学习模型架构。这一架构证明了仅凭“预测下一个词元”,就能够同时支持高水平的生成能力与理解能力,并且在同一统一架构下,自然地扩展到机器人操作以及多模态交错等生成任务。此外,研究团队还做了大量消融实验和分析,验证了多模态学习的规模定律(Scaling law)、统一离散化的高效性、以及解码器架构的有效性。
智源研究团队对相关研究的多项关键技术与模型进行了开源,以推动该方向的持续研究,还通过大规模消融实验系统分析了多项关键技术的设计选择,并验证了自回归路线高度通用性,使模型能够更好地对齐人类偏好。
研究表明,预测下一个词元可作为多模态模型的核心范式,突破语言模型的边界,在多种多模态任务中展现了强劲性能。
2025年10月,智源推出的原生多模态模型Emu3.5进一步通过大规模长时序视频训练,学习时空与因果关系,展现出随模型与数据规模增长而提升的物理世界建模能力,并观察到多模态能力随规模扩展而涌现的趋势,实现了“预测下一个状态”的范式升级。
成立7年来,智源聚焦人工智能技术前沿,挑战最基础的问题和最关键的难题,推进大模型技术不断演进。未来,智源将继续围绕智能与物理世界的深层关联,推进面向下一代人工智能的科研创新。
相关论文信息:https://doi.org/10.1038/s41586-025-10041-x
细菌锰离子外排对于锰离子和铁离子稳态均具有重要意义。TerC家族蛋白是存在于所有细菌中的一种保守蛋白质。然而,长期以 面对以大模型通用人工智能为代表的新技术,以及由此带来的工业界、产业界的新发展新模式,MBA人才教育何去何从? 12月1日,在清 据《自然》消息,与不到10年前相比,每年发表60篇以上论文的研究人员数量增加了四倍。11月24日发表在bioRxiv上的一篇预印本 中新网1月1日电 据国家地震台网官方微博消息,中国地震台网自动测定:1月1日15时10分在日本本州西岸近海附近(北纬37.98度,东 编译 | 杜珊妮 美国高等教育的毕业率已经陷入了长达3年的停滞,辍学率常年维持在29%。这一令人震惊的数据由美国国家学生 科技日报讯 (记者张梦然)日本大阪都立大学科学家设计了一种高效、无创、无痛的方法,从尿液样本中重新编程犬类干细胞,使 。本文链接:智源大模型成果首次发表于《自然》http://www.sushuapos.com/show-11-31367-0.html
声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
上一篇: 首届科学家精神讲解员风采展示活动在京落幕
下一篇: 研究人员系统总结植物转录因子研究新进展