中国首个通用具身基座模型发布

发布时间: 2025-03-10 14:08:27 来源：澎湃新闻

观看：107

3月10日，上海机器人初创公司智元机器人正式发布智元启元大模型GenieOperator-1（GO-1），这是中国首个通用具身基座模型。智元机器人表示，这款模型具有泛化能力，能够在极少数据甚至零样本下泛化到新场景、新任务，降低了具身模型的使用门槛，降低了后训练成本。

据介绍，该模型开创性地提出了Vision-Language-Latent-Action（ViLLA）架构，实现了可以利用人类视频学习，完成小样本快速泛化。ViLLA架构是由VLM（多模态大模型） + MoE（混合专家）组成，其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力，MoE中的Latent Planner（隐式规划器）借助大量跨本体和人类操作数据获得通用的动作理解能力，MoE中的Action Expert（动作专家）借助百万真机数据获得精细的动作执行能力。在推理时，VLM（多模态大模型）、Latent Planner（隐式规划器）和Action Expert（动作专家）三者协同工作。目前智元启元大模型已成功部署到智元多款机器人本体。

2024年年底，智元机器人曾发布AgiBot World百万真机数据集，尽管AgiBot World 数据集已经是目前最大的机器人真机示教数据集，但这样高质量带动作标签的真机数据量仍然有限，远少于互联网规模的数据集。为了解决具身智能数据困境，智元机器人采用Latent Actions（隐式动作）来建模当前帧和历史帧之间的隐式变化，然后通过Latent Planner（隐式规划器）预测这些Latent Actions（隐式动作），从而将异构数据源中真实世界的动作知识转移到通用操作任务中。

智元机器人表示，通过ViLLA创新性架构，智元机器人在五种不同复杂度任务上测试 GO-1大模型，相比已有的最优模型，GO-1平均成功率提高了32%。其中在“Pour Water”（倒水）、“Table Bussing”（清理桌面）和 “Restock Beverage”（补充饮料）任务中表现突出。此外，GO-1大模型还可以搭配智元一整套数据回流系统，可以从实际执行遇到的问题数据中持续进化学习，“越用越聪明”。

12月11~15日，第32届Texas相对论天体物理学研讨会（Texas Symposium on Relativistic Astrophysics）在上海交通大学李政欧洲空间局公布了“欧几里德”空间望远镜拍摄的首批彩色图像，有助于揭示暗物质和暗能量等宇宙奥秘。图为马头星云的陈志潜（1903—2000），生于四川成都。公共卫生学家、医学教育家、中国近现代农村公共卫生体系的开创者。1929年毕业于北京协 “这些小胶质细胞在tau蛋白病变有效地扩散到下一个细胞之前就开始吸收并降解tau蛋白。没有tau病理学，就不会有神经退法国政府近日推出“2030国家生物多样性战略”，包括40项措施和200项行动，旨在保护和恢复生态系统、减少对生物多样性的省教育厅关于下达2024年普通高校“专转本”计划的通知苏教学函〔2023〕22号各有关高校：根据《省教育厅关于做好2024年。

本文链接：中国首个通用具身基座模型发布http://www.sushuapos.com/show-11-18355-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：重庆新设立14个国家级博士后科研工作站

下一篇：对AI生成内容强制标识是一种伦理责任

中国首个通用具身基座模型发布

热门资讯

推荐资讯

科学最热文章