设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

发布时间: 来源: 量子位

考研速度和性能的平衡8mU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

让大模型直接操纵格斗游戏《街霸》里的角色,捉对PK,谁更能打?8mU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

GitHub上一种你没有见过的船新Benchmark火了。8mU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

与llmsys大模型竞技场中,两个大模型分别输出答案,再由人类评分不同——街霸Bench引入了两个AI之间的交互,且由游戏引擎中确定的规则评判胜负。8mU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这种新玩法吸引了不少网友来围观。8mU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

由于项目是在Mistral举办的黑客马拉松活动上开发,所以开发者只使用OpenAI和Mistral系列模型进行了测试。8mU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

排名结果也很出人意料。8mU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

经过342场对战后,根据棋类、电竞常用的ELO算法得出的排行榜如下:8mU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最新版gpt-3.5-turbo成绩断崖式领先,Mistral小杯排第二。更小的模型超过了更大的如GPT-4和Mistral中杯大杯。8mU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

开发者认为,这种新型基准测试评估的是大模型理解环境并根据特定情况采取行动的能力。8mU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

与传统的强化学习也有所不同,强化学习模型相当于根据奖励函数“盲目地”采取不同行动,但大模型完全了解自身处境并有目的的采取行动。8mU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

考验AI的动态决策力

AI想在格斗游戏里称王,需要哪些硬实力呢?开发者给出几个标准:8mU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • 反应要快:格斗游戏讲究实时操作,犹豫就是败北
  • 脑子要灵:高手应该预判对手几十步,未雨绸缪
  • 思路要野:常规套路人人会,出奇制胜才是制胜法宝
  • 适者生存:从失败中吸取教训并调整策略
  • 久经考验:一局定胜负不说明问题,真正的高手能保持稳定的胜率
大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

具体玩法如下:8mU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

每个大模型控制一个游戏角色,程序向大模型发送屏幕画面的文本描述,大模型根据双方血量、怒气值、位置、上一个动作、对手的上一个动作等信息做出最优决策。8mU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

第一个挑战是定位人物在场景中的位置,通过检测像素颜色来判断。8mU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

由于目前大模型数学能力还都不太行,直接发送坐标值效果不好,最终选择了将位置信息改写成自然语言描述8mU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

所以对于AI来说,实际上他们在玩的是一种奇怪的文字冒险游戏。8mU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

把大模型生成的动作招式映射成按键组合,就能发送给游戏模拟器执行了。8mU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

在试验中发现,大模型可以学会复杂的行为,比如仅在对手靠近时才攻击可能的情况下使用特殊招式,以及通过跳跃来拉开距离8mU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

从结果上可以看出,与其他测试方法不同,在这个规则下似乎更大的模型表现越差8mU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开发者对此解释到:8mU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在推理上的延迟差距是有意保留的,但后续或许会加入其他选项。8mU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

后续也有用户提交了流行开源模型的对战结果,在7B及以下量级的战斗中,还是7B模型排名更靠前。8mU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

从这个角度看,这种新型基准测试为评估大模型的实用性提供了新思路。8mU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

现实世界的应用往往比聊天机器人复杂得多,需要模型具备快速理解、动态规划的本领。8mU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

正如开发者所说,想要赢,要在速度和精度之间做好权衡8mU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

GitHub项目:
https://github.com/OpenGenerativeAI/llm-colosseum8mU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

参考链接:
[1]https://x.com/nicolasoulianov/status/17722914833258787098mU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
[2]https://x.com/justinlin610/status/17741179472353240878mU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

随着历史的车轮驶入2024年,大模型、AIGC等话题引发广泛热议,云计算与AI技术展现出了前所未有的深度融合趋势,就如同寒武纪的生物大爆发,激发着各行各业的创新浪潮。新质生产力时代到来,政企用云进 3月18日,中国经济信息社(以下简称中经社)垂直领域数字化应用系统发布仪式在北京举行。在发布仪式上,锚定建设“国家级经济信息旗舰”的目标,中经社推出了八大数字化应用系统。中经社此次发布的行 记者3月20日从中国科学技术大学获悉,该校郭光灿院士团队在量子态分辨研究中取得重要进展:他们在最小资源消耗的量子态分辨问题中首次提出了全局最优自适应策略,并发展了自适应集体测量实验技术, 记者3月20日来到广东深汕西高速公路改扩建施工现场,看到智能机器人、自动化生产线等智能制造设备在不停运行。3月19日—20日,由茅以升科技教育基金会和广东省交通集团联合主办的全国高速 美国加州理工学院喷气推进实验室的一个机器人专家团队,与卡内基梅隆大学机器人研究所科学家合作,开发出一种蛇形机器人,用于调查土星第六大卫星土卫二的地形,以寻找生命的“蛛丝马迹”。相关研究 xiaomi在3月21日正式发布了首款“潮流旗舰”定位的产品——xiaomiCivi 4 Pro。该机定位相较以前大幅升级,尤其是性能、影像、AI方面明显提高,这背后的大功臣之一就是第三代骁龙8s。xiaom 。

本文链接:大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmarkhttp://www.sushuapos.com/show-2-4455-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 机器狗首次阵亡!美国警方披露详情

下一篇: 全麻会不会影响智力?医生解答麻醉疑虑

热门资讯

推荐资讯

  • 日榜
  • 周榜
  • 月榜