设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

小米大模型负责人罗福莉首秀:算力和数据也并非最后的护城河

2025-12-18 12:42:05 来源: 界面新闻

罗福莉在小米大模型团队不仅仅要担任一个科学家角色,她需要真正带领小米做出能够落地其人车家全生态产品的AI基座模型及应用能力。Lit速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

12月17日,小米召开2025人车家全生态合作伙伴大会。但实际上,几乎所有目光都瞄准了其中一位演讲者——Xiaomi Mimo大模型负责人罗福莉。Lit速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

自离开DeepSeek、低调入职小米后,这是被行业誉为“AI天才少女”的罗福莉首次代表小米大模型团队公开对外。而大会开始前,小米发布并开源了最新MoE大模型MiMo-V2-Flash,这构成了罗福莉演讲的核心内容。 Lit速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

罗福莉在开场时指出,下一代智能体系统核心围绕Agent执行与Omni(全能)感知,涵盖记忆、推理、自主规划、决策、执行多个维度,应当从回答问题走向完成任务,并且应当统一多模态感知,为理解物理世界打基础。 Lit速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

她由此表示,MiMo-V2-Flash在研发之初,主要围绕三个关键问题展开。Lit速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

第一,当代智能体必须要有高效的沟通语言,即代码能力和工具调用能力;第二,“高带宽”是Agent协作的关键,因此需要围绕极致推理效率设计模型结构;第三,模型训练范式逐步从预训练转向后训练,为了激发后训练的更多潜能,需要高效稳定的扩展强化学习训练。Lit速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

MiMo-V2-Flash是小米全新一代面向Agent的基座模型,总参数309B,激活参数15B,支持256k上下文窗口,整体针对推理、编码和Agent场景构建,支持混合思维模式,允许用户切换“思考”和即时回答模式。Lit速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在基准测试中,MiMo-V2-Flash的表现整体接近DeepSeek-V3.2,在SWE-Bench Verified/Multiligual、GPQA-Diamond等测试中略胜一筹,仅在HLE(人类最后的考试)及Arena-Hard(创意写作评估)两项测试中不及后者。此外,该模型在AIME2025能力上接近GPT-5和Gemini 3.0 Pro。Lit速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

作为首秀成果,同时也是小米未来可能全面落地各个业务场景的智能体模型底座,罗福莉花了大量篇幅重点讲述MiMo-V2-Flash的性价比优势及其技术来由。Lit速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

目前,MiMo-V2-Flash推理吞吐速度为每秒150个token,定价0.7元/每百万输入token,2.1元/每百万输出token。Lit速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在一张价格与速度构成的坐标轴图标中,MiMo-V2-Flash的速度与Gemini-2.5 Pro齐平,但价格是其约二十分之一;其价格是DeepSeek V3.2的约一半,但速度是后者的近3倍。Lit速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这样的推理效率主要来自两项创新。其一是模型注意力机制采用了Hybrid Sliding Window Attention(Hybrid SWA/混合滑动窗口注意力机制),其中SWA与Full Attention(全局注意力机制)的比例是5:1。Lit速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

罗福莉指出,相较于一些复杂的Linear Attention(线性注意力机制),SWA在兼顾长短文的推理、知识检索等方面更胜一筹。Lit速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一名AI大模型行业从业者对界面新闻记者表示,SWA本质上是一种Sparse Attention(稀疏注意力机制),业界普遍利用它解决长上下文的推理效率问题,其最大优势是可以将KV Cache保持在一个固定最大值,而不会随着上下文扩大而无限增长,从而实现降本增效的目的。 Lit速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

他指出,这种机制核心要考虑的问题是在长文本任务中受到窗口策略限制可能表现不佳,这也是SWA会与Full Attention进行混合配比的原因之一。 Lit速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

MiMo-V2-Flash另一项重要创新在于MTP(Multi-Token Prediction)。罗福莉表示,团队在训练时加入了一层MTP层以提高基座模型能力,并在微调时也加入了更多MTP层,最终在推理时加入了3层MTP,以加速并行token验证的方式实现了2-2.6倍推理速度的提升。 Lit速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外,为了提高强化学习训练的稳定性,MiMo团队提出了一种叫做Multi-Teacher On-Policy Distillation(MOPD)的后训练范式。相较于传统SFT+RL(微调+强化学习)的后训练方式,它可以提供稠密的token level监督学习信号,以简单快速的方式获得各个专家模型的能力。 Lit速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“我们还发现一个很意外的事情,当学生很快超越老师的时候,我们能不能把老师替换成学生继续自我迭代提升,这是一个正在进行中的工作。”罗福莉预告称。Lit速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

从这场演讲可以看出的是,罗福莉在小米大模型团队不仅仅要担任一个科学家角色,她需要真正带领小米做出能够落地其人车家全生态产品的AI基座模型及应用能力——在汽车、手机、大家电、智能穿戴等硬件产品线全面开始跨越自己的阶段性门槛后,AI能力是小米撑起下一个十年技术叙事的核心底座。Lit速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

罗福莉也几乎没有谈论自己,唯一涉及团队构成的表述是,一个“小而美,却充满创业精神极度好奇、追求真理”的年轻团队。此外,她认为在大模型的能力竞争中,算力和数据也并非最终的护城河,“而是科学的研究文化与方法,是将未知问题结合模型优势转化可用产品的能力”。Lit速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外,在大会上,小米集团合伙人、集团总裁卢伟冰披露了小米“人车家全生态”的最新进展:用户规模方面,小米全球月活跃用户数达到7.42亿;硬件生态方面,小米AIoT平台连接设备数达到10.4亿,硬件合作伙伴数量突破15000家;软件生态方面,小米全球开发者规模达到120万,国内应用生态每月应用分发量突破11亿。Lit速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

罗福莉在小米大模型团队不仅仅要担任一个科学家角色,她需要真正带领小米做出能够落地其人车家全生态产品的AI基座模型及应用能力。Lit速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

12月17日,小米召开2025人车家全生态合作伙伴大会。但实际上,几乎所有目光都瞄准了其中一位演讲者——Xiaomi Mimo大模型负责人罗福莉。Lit速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

自离开DeepSeek、低调入职小米后,这是被行业誉为“AI天才少女”的罗福莉首次代表小米大模型团队公开对外。而大会开始前,小米发布并开源了最新MoE大模型MiMo-V2-Flash,这构成了罗福莉演讲的核心内容。 Lit速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

罗福莉在开场时指出,下一代智能体系统核心围绕Agent执行与Omni(全能)感知,涵盖记忆、推理、自主规划、决策、执行多个维度,应当从回答问题走向完成任务,并且应当统一多模态感知,为理解物理世界打基础。 Lit速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

她由此表示,MiMo-V2-Flash在研发之初,主要围绕三个关键问题展开。Lit速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

第一,当代智能体必须要有高效的沟通语言,即代码能力和工具调用能力;第二,“高带宽”是Agent协作的关键,因此需要围绕极致推理效率设计模型结构;第三,模型训练范式逐步从预训练转向后训练,为了激发后训练的更多潜能,需要高效稳定的扩展强化学习训练。Lit速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

MiMo-V2-Flash是小米全新一代面向Agent的基座模型,总参数309B,激活参数15B,支持256k上下文窗口,整体针对推理、编码和Agent场景构建,支持混合思维模式,允许用户切换“思考”和即时回答模式。Lit速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在基准测试中,MiMo-V2-Flash的表现整体接近DeepSeek-V3.2,在SWE-Bench Verified/Multiligual、GPQA-Diamond等测试中略胜一筹,仅在HLE(人类最后的考试)及Arena-Hard(创意写作评估)两项测试中不及后者。此外,该模型在AIME2025能力上接近GPT-5和Gemini 3.0 Pro。Lit速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

作为首秀成果,同时也是小米未来可能全面落地各个业务场景的智能体模型底座,罗福莉花了大量篇幅重点讲述MiMo-V2-Flash的性价比优势及其技术来由。Lit速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

目前,MiMo-V2-Flash推理吞吐速度为每秒150个token,定价0.7元/每百万输入token,2.1元/每百万输出token。Lit速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在一张价格与速度构成的坐标轴图标中,MiMo-V2-Flash的速度与Gemini-2.5 Pro齐平,但价格是其约二十分之一;其价格是DeepSeek V3.2的约一半,但速度是后者的近3倍。Lit速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这样的推理效率主要来自两项创新。其一是模型注意力机制采用了Hybrid Sliding Window Attention(Hybrid SWA/混合滑动窗口注意力机制),其中SWA与Full Attention(全局注意力机制)的比例是5:1。Lit速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

罗福莉指出,相较于一些复杂的Linear Attention(线性注意力机制),SWA在兼顾长短文的推理、知识检索等方面更胜一筹。Lit速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一名AI大模型行业从业者对界面新闻记者表示,SWA本质上是一种Sparse Attention(稀疏注意力机制),业界普遍利用它解决长上下文的推理效率问题,其最大优势是可以将KV Cache保持在一个固定最大值,而不会随着上下文扩大而无限增长,从而实现降本增效的目的。 Lit速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

他指出,这种机制核心要考虑的问题是在长文本任务中受到窗口策略限制可能表现不佳,这也是SWA会与Full Attention进行混合配比的原因之一。 Lit速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

MiMo-V2-Flash另一项重要创新在于MTP(Multi-Token Prediction)。罗福莉表示,团队在训练时加入了一层MTP层以提高基座模型能力,并在微调时也加入了更多MTP层,最终在推理时加入了3层MTP,以加速并行token验证的方式实现了2-2.6倍推理速度的提升。 Lit速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外,为了提高强化学习训练的稳定性,MiMo团队提出了一种叫做Multi-Teacher On-Policy Distillation(MOPD)的后训练范式。相较于传统SFT+RL(微调+强化学习)的后训练方式,它可以提供稠密的token level监督学习信号,以简单快速的方式获得各个专家模型的能力。 Lit速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“我们还发现一个很意外的事情,当学生很快超越老师的时候,我们能不能把老师替换成学生继续自我迭代提升,这是一个正在进行中的工作。”罗福莉预告称。Lit速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

从这场演讲可以看出的是,罗福莉在小米大模型团队不仅仅要担任一个科学家角色,她需要真正带领小米做出能够落地其人车家全生态产品的AI基座模型及应用能力——在汽车、手机、大家电、智能穿戴等硬件产品线全面开始跨越自己的阶段性门槛后,AI能力是小米撑起下一个十年技术叙事的核心底座。Lit速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

罗福莉也几乎没有谈论自己,唯一涉及团队构成的表述是,一个“小而美,却充满创业精神极度好奇、追求真理”的年轻团队。此外,她认为在大模型的能力竞争中,算力和数据也并非最终的护城河,“而是科学的研究文化与方法,是将未知问题结合模型优势转化可用产品的能力”。Lit速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外,在大会上,小米集团合伙人、集团总裁卢伟冰披露了小米“人车家全生态”的最新进展:用户规模方面,小米全球月活跃用户数达到7.42亿;硬件生态方面,小米AIoT平台连接设备数达到10.4亿,硬件合作伙伴数量突破15000家;软件生态方面,小米全球开发者规模达到120万,国内应用生态每月应用分发量突破11亿。Lit速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本文链接:小米大模型负责人罗福莉首秀:算力和数据也并非最后的护城河http://www.sushuapos.com/show-2-14585-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 提升地震监测精准度!我国突破强震动加速度计检定技术

下一篇: 美团优选全国关停,社区团购格局一家独大

热门资讯

  • 我国科研团队揭示非洲猪瘟病毒感染致病机制

    记者3月18日从兰州大学获悉,该校动物医学与生物安全学院郑海学教授团队解析了非洲猪瘟病毒(ASFV)在猪体内感染的靶细胞,以及在靶细胞内延长感染的机制

  • 我科学家发现的两种新矿物获国际认定

    记者19日从西北大学获悉,该校地质学系、大陆动力学国家重点实验室刘鹏副教授与中国地质大学(北京)李国武教授团队申请的两种新矿物,近日经国际矿物学学

  • 日学者提出“深海激励化学”新概念

    日本《朝日新闻》近日发表题为《深海之光——极端环境是创意宝库》的文章,作者是樱井林太郎,编译如下:在被称为最后未开垦地的深海,有着低温

  • 专家:警惕常见睡眠认知误区

    3月21日是世界睡眠日,中国主题为“健康睡眠 人人共享”。近日发布的《2023年中国居民睡眠白皮书》显示,我国居民平均睡眠时长6.75小时,平均在零点后入

  • 最小资源消耗的量子态分辨实现

    记者3月20日从中国科学技术大学获悉,该校郭光灿院士团队在量子态分辨研究中取得重要进展:他们在最小资源消耗的量子态分辨问题中首次提出了全局最优

  • 科学新发现丨有史以来最大的三维宇宙地图发布

    根据《天体物理学杂志》的最新报道,一个国际天文学家团队利用欧洲空间局的盖亚(Gaia)太空望远镜收集的数据,创建了迄今为止最庞大的三维宇宙地图。该地

  • 研究:“16:8”间歇性禁食可能与心脏病死亡风险上升相关

    据一项在本周举行的美国心脏协会会议上提交的新研究,每天进食时间控制在8小时内的间歇性禁食方法可能与心脏病死亡风险上升相关。近年来越来越流行

  • AI芯片巨头低调赚钱

      AI芯片巨头低调赚钱  骆轶琪  在过去一年半导体行业下行周期中,除了英伟达以GPU霸主身份实现业绩快速成长之外,另一些主营虽非GPU,但是立足于AI定制芯片市场的半导体巨

  • 曝huaweiMate60已停产!P70蓄势待发:下个月见

    近日有消息称,huaweiMate60已经停产。作为huawei于2023年8月末发布的最新旗舰机型,huaweiMate60的停产意味着huawei新款旗舰或即将上市,接替Mate60。2023

  • 京东与OPPO重磅合作:销售额3年翻倍!

    3月23日消息,京东与OPPO战略合作协议签约仪式举行,双方签订未来三年OPPO在京东全渠道实现销售额同比增长100%的目标。在签约仪式上,OPPO高级副CEO、首席产

  • Kimi掀起国产大模型长文本竞赛

    作为月之暗面的创始人,杨植麟常把他的AGI梦想形容为“登月计划”,长文本就是这个伟大计划的第一步。但现在,随着Kimi的爆火出圈,赛道瞬间变得

  • 英国2026年试飞电动“飞的”

    据英国《每日电讯报》网站3月18日报道,根据英国政府的新航空计划,首批电动飞行出租车将于2026年试飞。周一发布的《“飞行未来”行动计划》为飞行出

推荐资讯

  • 日榜
  • 周榜
  • 月榜