一段时间以来,围绕VLA(Vision-Language-Action,视觉-语言-行动)模型、WMA(World-Model–Action,“世界模型+动作策略”)模型两条路线的讨论,是具身智能领域里的热点话题。现在,大家似乎不约而同地决定放下争议,协同前行。
日前,智元机器人启动了一项机器人赛事AGIBOT WORLD CHALLENGE @ ICRA 2026(以下简称 ICRA 2026),两大核心赛道即为Reasoning to Action(推理-操作)和World Model(世界模型)。前者包括线上仿真与线下真机两个阶段,后者则聚焦具身智能中的生成与预测能力,采用线上竞赛方式。
3月25日,智元Genie业务部生态及解决方案总监沈咏剑在接受包括澎湃科技(www.thepaper.cn)在内的媒体采访时表示,从长期趋势看,世界模型与VLA并不一定是替代关系,未来存在结合的可能。“从解决问题的层面上来说,有可能会有一些融合或者说合作的状态,二者不算是替代和被替代的关系。”
VLA曾一度被视为具身智能的重要主流路径,即让机器人基于视觉输入和语言指令,直接完成动作生成与执行。但随着机器人开始进入更复杂、更长链条的任务场景,仅仅“看懂指令并做出动作”已不够。机器人还需要理解任务目标、拆解步骤、推演环境变化,并在执行过程中持续调整策略。
沈咏剑介绍,此次赛事中设置的世界模型赛道考察的是模型根据机器人动作建模物理环境动态的能力。参赛者需要基于真实机器人观测与动作信号,训练视频生成模型,生成机器人在多个真实任务场景中的交互视频
另一条“推理-操作”赛道,同样考核的是机器人去理解-执行任务这一具体过程。沈咏剑提到,去年的比赛更多是“叠衣服”这类相对明确、固定的任务,机器人基本是“让它做什么,它就做什么”;而今年则加入了更多需要机器人先理解任务、再进行拆解和执行的场景,例如“整理桌面”这类任务,机器人不仅要完成动作,还要先理解什么算整洁、先做什么后做什么,再完成整套流程。
沈咏剑认为,当前世界模型的定义还未收敛,其核心可以概括为一种对未来状态的预测与推演能力:系统基于当前可见的多模态信息,判断下一时刻可能发生什么,或者在接收到任务指令后,推演机器人自身及周围环境接下来会发生怎样的变化。在他看来,这与当前VLA的范式并不完全相同,是相对独立的一条技术路线。
从智元近一年的公开布局看,该公司本身也并未只围绕单一路线推进。智元在2024年底推出了AgiBot World,包含超过100万条轨迹、涵盖217个任务、涉及五大场景的大规模高质量真机数据集。2025年3月,智元发布首个通用具身基座模型——智元启元大模型(Genie Operator-1)。今年1月,智元又发布了Genie Sim 3.0仿真平台,该平台基于NVIDIA Isaac Sim构建,融合三维重建与视觉生成技术,可实现数字孪生级高保真环境。与此同时,围绕推理与操作融合、全身控制等方向,2026年1月,智元具身研究中心宣布推出第二代一体化具身大小脑系统GenieReasoner。
沈咏剑表示,当前整个具身智能行业的人才仍处于稀缺状态,特别是高素质、顶尖的算法人才,他们希望通过赛事吸引更多优秀人才进入这一领域。
一段时间以来,围绕VLA(Vision-Language-Action,视觉-语言-行动)模型、WMA(World-Model–Action,“世界模型+动作策略”)模型两条路线的讨论,是具身智能领域里的热点话题。现在,大家似乎不约而同地决定放下争议,协同前行。
日前,智元机器人启动了一项机器人赛事AGIBOT WORLD CHALLENGE @ ICRA 2026(以下简称 ICRA 2026),两大核心赛道即为Reasoning to Action(推理-操作)和World Model(世界模型)。前者包括线上仿真与线下真机两个阶段,后者则聚焦具身智能中的生成与预测能力,采用线上竞赛方式。
3月25日,智元Genie业务部生态及解决方案总监沈咏剑在接受包括澎湃科技(www.thepaper.cn)在内的媒体采访时表示,从长期趋势看,世界模型与VLA并不一定是替代关系,未来存在结合的可能。“从解决问题的层面上来说,有可能会有一些融合或者说合作的状态,二者不算是替代和被替代的关系。”
VLA曾一度被视为具身智能的重要主流路径,即让机器人基于视觉输入和语言指令,直接完成动作生成与执行。但随着机器人开始进入更复杂、更长链条的任务场景,仅仅“看懂指令并做出动作”已不够。机器人还需要理解任务目标、拆解步骤、推演环境变化,并在执行过程中持续调整策略。
沈咏剑介绍,此次赛事中设置的世界模型赛道考察的是模型根据机器人动作建模物理环境动态的能力。参赛者需要基于真实机器人观测与动作信号,训练视频生成模型,生成机器人在多个真实任务场景中的交互视频
另一条“推理-操作”赛道,同样考核的是机器人去理解-执行任务这一具体过程。沈咏剑提到,去年的比赛更多是“叠衣服”这类相对明确、固定的任务,机器人基本是“让它做什么,它就做什么”;而今年则加入了更多需要机器人先理解任务、再进行拆解和执行的场景,例如“整理桌面”这类任务,机器人不仅要完成动作,还要先理解什么算整洁、先做什么后做什么,再完成整套流程。
沈咏剑认为,当前世界模型的定义还未收敛,其核心可以概括为一种对未来状态的预测与推演能力:系统基于当前可见的多模态信息,判断下一时刻可能发生什么,或者在接收到任务指令后,推演机器人自身及周围环境接下来会发生怎样的变化。在他看来,这与当前VLA的范式并不完全相同,是相对独立的一条技术路线。
从智元近一年的公开布局看,该公司本身也并未只围绕单一路线推进。智元在2024年底推出了AgiBot World,包含超过100万条轨迹、涵盖217个任务、涉及五大场景的大规模高质量真机数据集。2025年3月,智元发布首个通用具身基座模型——智元启元大模型(Genie Operator-1)。今年1月,智元又发布了Genie Sim 3.0仿真平台,该平台基于NVIDIA Isaac Sim构建,融合三维重建与视觉生成技术,可实现数字孪生级高保真环境。与此同时,围绕推理与操作融合、全身控制等方向,2026年1月,智元具身研究中心宣布推出第二代一体化具身大小脑系统GenieReasoner。
沈咏剑表示,当前整个具身智能行业的人才仍处于稀缺状态,特别是高素质、顶尖的算法人才,他们希望通过赛事吸引更多优秀人才进入这一领域。
记者3月18日从安徽明天氢能科技股份有限公司(以下简称明天氢能)获悉,国家电网近日向明天氢能及董事长王朝云分别授予科学技术进步奖一等奖,获奖项目为“大规模氢电一体化站关键技术、核心装备及 美国布朗大学研究团队在最新一期《自然·电子学》上描述了一种无线通信网络。它可有效地传输、接收和解码来自数千个微电子芯片的数据。研究团队试图模仿大脑神秘且高效的工作方式。对 21世纪经济报道记者 蔡姝越 上海报道舆论高度关注的游族网络(002174.SZ)投毒案,幕后主使许垚如何量刑有了最新进展。3月22日,上海市第一中级人民法院(以下简称上海一中院)宣判被告人许垚故 “AI钢铁侠”黄仁勋,又进化了英伟达 作 者丨倪雨晴 2024年,英伟达一年一度的GTC大会已然成为AI界春晚,现场座无虚席,全球AI爱好者翘首以待黄仁勋的独家SOLO。 北京时间3月19日凌晨,GTC终于拉开大幕。英伟达创 在近日开幕的中国国际核工业展览会上,中国核学会理事会党委书记、理事长王寿君表示,中国内地现有在运核电机组55台、居全球第三;在建核电机组26台,保持全球第一。这些成绩的取得,离不开智能化技术 科学杂志《成瘾》3月21日发表的一项新研究显示,刚开始吸烟和终生吸烟都可能增加腹部脂肪,特别是内脏脂肪。内脏脂肪与心脏病、糖尿病、中风和痴呆症的高风险有关。吸烟者相较于不吸烟者,通常体 。本文链接:“VLA和世界模型不是替代和被替代的关系”http://www.sushuapos.com/show-2-15829-0.html
声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。