3月10日,上海机器人初创公司智元机器人正式发布智元启元大模型GenieOperator-1(GO-1),这是中国首个通用具身基座模型。智元机器人表示,这款模型具有泛化能力,能够在极少数据甚至零样本下泛化到新场景、新任务,降低了具身模型的使用门槛,降低了后训练成本。
据介绍,该模型开创性地提出了Vision-Language-Latent-Action(ViLLA)架构,实现了可以利用人类视频学习,完成小样本快速泛化。ViLLA架构是由VLM(多模态大模型) + MoE(混合专家)组成,其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力。在推理时,VLM(多模态大模型)、Latent Planner(隐式规划器)和Action Expert(动作专家)三者协同工作。目前智元启元大模型已成功部署到智元多款机器人本体。
2024年年底,智元机器人曾发布AgiBot World百万真机数据集,尽管AgiBot World 数据集已经是目前最大的机器人真机示教数据集,但这样高质量带动作标签的真机数据量仍然有限,远少于互联网规模的数据集。为了解决具身智能数据困境,智元机器人采用Latent Actions(隐式动作)来建模当前帧和历史帧之间的隐式变化,然后通过Latent Planner(隐式规划器)预测这些Latent Actions(隐式动作),从而将异构数据源中真实世界的动作知识转移到通用操作任务中。
智元机器人表示,通过ViLLA创新性架构,智元机器人在五种不同复杂度任务上测试 GO-1大模型,相比已有的最优模型,GO-1平均成功率提高了32%。其中在“Pour Water”(倒水)、“Table Bussing”(清理桌面) 和 “Restock Beverage”(补充饮料) 任务中表现突出。此外,GO-1大模型还可以搭配智元一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习,“越用越聪明”。
“数据、模型和训练都是我们自己做的,我们将开放数据和模型,供每一位开发者免费使用。”12月15日,北京中科闻歌科技股份有 ·“Apollo开放平台9.0拥有极强场景通用能力,适配环节减少40% 、代码阅读量减少90%、代码调试量减少80%,可以实现‘ 12月16日至17日,由中国科学院高能物理研究所主办的南方先进光源指导委员会新能源与器件工作组研讨会在位于广东东莞的中 即使在新冠疫情期间接种了数十亿剂疫苗后,信使核糖核酸(mRNA)疫苗仍令人惊讶。近日,《自然》发表的一项研究表明,mRNA疫苗可 编者按 近两年,中国有一小部分年轻学子正在涌入Gap year文化的潮流,有些人甚至选择延毕去体验这种间隔年。Gap year兴起于 据“浙江大学”微信公众号1月2日消息,加利福尼亚大学伯克利分校数学系正教授孙崧日前加盟浙江大学数学高等 。本文链接:中国首个通用具身基座模型发布http://www.sushuapos.com/show-11-18355-0.html
声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
上一篇: 重庆新设立14个国家级博士后科研工作站
下一篇: 对AI生成内容强制标识是一种伦理责任