设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

2024-04-02 06:43:58 来源: 量子位

考研速度和性能的平衡Ca8速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

让大模型直接操纵格斗游戏《街霸》里的角色,捉对PK,谁更能打?Ca8速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

GitHub上一种你没有见过的船新Benchmark火了。Ca8速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

与llmsys大模型竞技场中,两个大模型分别输出答案,再由人类评分不同——街霸Bench引入了两个AI之间的交互,且由游戏引擎中确定的规则评判胜负。Ca8速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这种新玩法吸引了不少网友来围观。Ca8速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

由于项目是在Mistral举办的黑客马拉松活动上开发,所以开发者只使用OpenAI和Mistral系列模型进行了测试。Ca8速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

排名结果也很出人意料。Ca8速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

经过342场对战后,根据棋类、电竞常用的ELO算法得出的排行榜如下:Ca8速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最新版gpt-3.5-turbo成绩断崖式领先,Mistral小杯排第二。更小的模型超过了更大的如GPT-4和Mistral中杯大杯。Ca8速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

开发者认为,这种新型基准测试评估的是大模型理解环境并根据特定情况采取行动的能力。Ca8速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

与传统的强化学习也有所不同,强化学习模型相当于根据奖励函数“盲目地”采取不同行动,但大模型完全了解自身处境并有目的的采取行动。Ca8速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

考验AI的动态决策力

AI想在格斗游戏里称王,需要哪些硬实力呢?开发者给出几个标准:Ca8速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • 反应要快:格斗游戏讲究实时操作,犹豫就是败北
  • 脑子要灵:高手应该预判对手几十步,未雨绸缪
  • 思路要野:常规套路人人会,出奇制胜才是制胜法宝
  • 适者生存:从失败中吸取教训并调整策略
  • 久经考验:一局定胜负不说明问题,真正的高手能保持稳定的胜率
大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

具体玩法如下:Ca8速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

每个大模型控制一个游戏角色,程序向大模型发送屏幕画面的文本描述,大模型根据双方血量、怒气值、位置、上一个动作、对手的上一个动作等信息做出最优决策。Ca8速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

第一个挑战是定位人物在场景中的位置,通过检测像素颜色来判断。Ca8速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

由于目前大模型数学能力还都不太行,直接发送坐标值效果不好,最终选择了将位置信息改写成自然语言描述Ca8速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

所以对于AI来说,实际上他们在玩的是一种奇怪的文字冒险游戏。Ca8速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

把大模型生成的动作招式映射成按键组合,就能发送给游戏模拟器执行了。Ca8速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

在试验中发现,大模型可以学会复杂的行为,比如仅在对手靠近时才攻击可能的情况下使用特殊招式,以及通过跳跃来拉开距离Ca8速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

从结果上可以看出,与其他测试方法不同,在这个规则下似乎更大的模型表现越差Ca8速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开发者对此解释到:Ca8速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在推理上的延迟差距是有意保留的,但后续或许会加入其他选项。Ca8速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

后续也有用户提交了流行开源模型的对战结果,在7B及以下量级的战斗中,还是7B模型排名更靠前。Ca8速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

从这个角度看,这种新型基准测试为评估大模型的实用性提供了新思路。Ca8速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

现实世界的应用往往比聊天机器人复杂得多,需要模型具备快速理解、动态规划的本领。Ca8速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

正如开发者所说,想要赢,要在速度和精度之间做好权衡Ca8速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

GitHub项目:
https://github.com/OpenGenerativeAI/llm-colosseumCa8速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

参考链接:
[1]https://x.com/nicolasoulianov/status/1772291483325878709Ca8速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
[2]https://x.com/justinlin610/status/1774117947235324087Ca8速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本文链接:大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmarkhttp://www.sushuapos.com/show-2-4455-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 机器狗首次阵亡!美国警方披露详情

下一篇: 全麻会不会影响智力?医生解答麻醉疑虑

热门资讯

  • 洞悉竹类植物有了称手“利器”

    竹类植物是竹亚科植物的总称,与水稻、小麦、大麦和燕麦同属于禾本科BOP分支,具有重要的经济、生态和文化价值。为更好地服务竹类植物的系统进化和功

  • 全国爱肝日丨专家提醒注意“小心肝”

    3月18日是第24个“全国爱肝日”。今年活动的主题是,“早防早筛,远离肝硬化”。重庆多所医院开展义诊咨询活动,通过普及肝病的防治知识,让民众主动筛查

  • 淋巴结冻干“锁鲜”技术或可用于肿瘤治疗

    人体免疫系统中的小过滤器淋巴结有了新妙用。近日,浙江大学药学院、金华研究院教授顾臻团队联合多位科研人员,在国际上首次提出利用冷冻干燥的淋巴结

  • 诺贝尔化学奖获得者阿龙・切哈诺沃:做研究保持好奇心很重要

      诺贝尔化学奖获得者阿龙・切哈诺沃:做研究保持好奇心很重要  中新网宁波3月17日电(林波)对于学生而言,如何找到研究的信心和价值,让他们有继续下去的动力?  “做研究保

  • 突发!Kimi,崩了!

    因流量突然剧增,3月21日,陆续有用户在社交平台上表示,月之暗面旗下大模型应用Kimi智能助手的APP和小程序均无法正常使用。截至记者发稿时,相关

  • 腾讯发布GiiNEX游戏AI引擎 用AIGC助力游戏研发运营

    3月20日,在2024全球游戏开发者大会(GDC)上,腾讯发布了自研游戏AI引擎——GiiNEX。基于生成式AI和决策AI技术,GiiNEX将为游戏全生命周期提供丰

  • AI+智能家居赋能健康睡眠

    3月21日是第二十五个“世界睡眠日”,中国睡眠研究会联合慕思集团在北京正式发布《2024情绪与健康睡眠白皮书》(以下简称《白皮书》)。《白皮书》指出,

  • 研究:“16:8”间歇性禁食可能与心脏病死亡风险上升相关

    据一项在本周举行的美国心脏协会会议上提交的新研究,每天进食时间控制在8小时内的间歇性禁食方法可能与心脏病死亡风险上升相关。近年来越来越流行

  • 科学家提出人类性别决定新理论

    3月18日,记者从中南大学生殖与干细胞研究所获悉,研究所林戈、卢光琇教授团队提出的一项新理论称,原始生殖细胞的性染色体组成在人类性别决定中起关键

  • 人工纳米流体突触可实现存内计算

    瑞士洛桑联邦理工学院工程学院研究团队制造了一种用于内存的新型纳米流体设备,这使他们第一次能连接两个“人工突触”。该设备为受大脑启发的液体硬

  • huawei回应P70预售时间曝光:假的 最近没有官方消息透露

    3月22日消息,根据huawei旗舰机型迭代策略,今年上半年将发布影像旗舰huaweiP70系列。然而,这两天一张流出的图片声称huaweiP70将于3月23日开始预售,并附有各

  • 第三颗“厦门造”卫星出征

    3月23日,“天卫科技03星”暨“华祥苑壹号”卫星在厦门举行出征仪式,这是由厦门本土企业天卫科技制造研发的第三颗服务当地建设的商业卫星,标志着厦门

推荐资讯

  • 日榜
  • 周榜
  • 月榜