设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

大模型一对一战斗75万轮,GPT-4夺冠,Llama 3位列第五

发布时间: 来源: 量子位

Llama 3英文能力与GPT-4并列第一neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

克雷西 发自 凹非寺neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
量子位 | 公众号 QbitAI

关于Llama 3,又有测试结果新鲜出炉——neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型评测社区LMSYS发布了一份大模型排行榜单,Llama 3位列第五,英文单项与GPT-4并列第一。neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

图片neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不同于其他Benchmark,这份榜单的依据是模型一对一battle,由全网测评者自行命题并打分。neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最终,Llama 3取得了榜单中的第五名,排在前面的是GPT-4的三个不同版本,以及Claude 3超大杯Opus。neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而在英文单项榜单中,Llama 3反超了Claude,与GPT-4打成了平手。neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

对于这一结果,Meta的首席科学家LeCun十分高兴,转发了推文并留下了一个“Nice”。neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

图片neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

PyTorch之父Soumith Chintala也激动地表示,这样的成果令人难以置信,对Meta感到骄傲。neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Llama 3的400B版本还没出来,单靠70B参数就获得了第五名……neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
我还记得去年三月GPT-4发布的时候,达到与之相同的表现几乎是一件不可能的事。neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
……neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
现在AI的普及化实在是令人难以置信,我对Meta AI的同仁们做出这样的成功感到非常骄傲。neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

图片neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

那么,这份榜单具体展示了什么样的结果呢?neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

近90个模型对战75万轮

截至最新榜单发布,LMSYS共收集了近75万次大模型solo对战结果,涉及的模型达到了89款。neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

其中,Llama 3参与过的有1.27万次,GPT-4则有多个不同版本,最多的参与了6.8万次。neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

图片neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

下面这张图展示了部分热门模型的比拼次数和胜率,图中的两项指标都没有统计平局的次数。neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

图片neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

榜单方面,LMSYS分成了总榜和多个子榜单,GPT-4-Turbo位列第一,与之并列的是早一些的1106版本,以及Claude 3超大杯Opus。neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

另一个版本(0125)的GPT-4则位列其后,紧接着就是Llama 3了。neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不过比较有意思的是,较新一些的0125,表现还不如老版本1106。neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

图片neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而在英文单项榜单中,Llama 3的成绩直接和两款GPT-4打成了平手,还反超了0125版本。neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

图片neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

中文能力排行榜的第一名则由Claude 3 Opus和GPT-4-1106共享,Llama 3则已经排到了20名开外。neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

图片neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

除了语言能力之外,榜单中还设置了长文本和代码能力排名,Llama 3也都名列前茅。neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不过,LMSYS的“游戏规则”又具体是什么样的呢?neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

人人都可参与的大模型评测

这是一个人人都可以参与的大模型测试,题目和评价标准,都由参与者自行决定。neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而具体的“竞技”过程,又分成了battle和side-by-side两种模式。neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

图片neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

battle模式下,在测试界面输入好问题之后,系统会随机调用库中的两个模型,而测试者并不知道系统到底抽中了谁,界面中只显示“模型A”和“模型B”。neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在模型输出答案后,测评人需要选择哪个更好,或者是平手,当然如果模型的表现都不符合预期,也有相应的选项。neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

只有在做出选择之后,模型的身份才会被揭开。neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

side-by-side则是由用户选择指定的模型来PK,其余测试流程与battle模式相同neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不过,只有battle的匿名模式下的投票结果才会被统计,且在对话过程中模型不小心暴露身份就会导致结果失效。neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

图片neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

按照各个模型对其他模型的Win Rate,可以绘制出这样的图像:neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

图片neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

示意图,较早版本

而最终的排行榜,是利用Win Rate数据,通过Elo评价系统换算成分数得到的。neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Elo评价系统是一种计算玩家相对技能水平的方法,由美国物理学教授Arpad Elo设计。neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

具体到LMSYS,在初始条件下,所有模型的评分(R)都被设定为1000,然后根据这样的公式计算出期待胜率(E)。neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

图片neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

随着测试的不断进行,会根据实际得分(S)对评分进行修正,S有1、0和0.5三种取值,分别对应获胜、失败和平手三种情况。neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

修正算法如下式所示,其中K为系数,需要测试者根据实际情况调整。neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

图片neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最终将所有有效数据纳入计算后,就得到了模型的Elo评分。neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不过实际操作过程中,LMSYS团队发现这种算法的稳定性存在不足,于是又采用了统计学方法进行了修正。neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

他们利用Bootstrap方法进行重复采样,得到了更稳定的结果,并估计了置信度区间。neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最终修正后的Elo评分,就成了榜单中的排列依据。neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

One More Thing

Llama 3已经可以在大模型推理平台Groq(不是马斯克的Grok)上跑了。neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这个平台的最大亮点就是“快”,之前用Mixtral模型跑出过每秒近500 token的速度。neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

跑起Llama 3,也是相当迅速,实测70B可以跑到每秒约300 Token,8B版本更是接近了800。neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

图片neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

参考链接:neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
[1]https://lmsys.org/blog/2023-05-03-arena/neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
[2]https://chat.lmsys.org/?leaderboardneN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
[3]https://twitter.com/lmsysorg/status/1782483699449332144neN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“远方巡视启动!”南方电网云南保山220千伏大寨变电站日前启动首次全套智能巡视,109个摄像头快速旋转,10套在线监测系统开始收集数据,变电站的无人机机巢弹开、无人机飞向工作点位,机器人从卷帘门 3月18日,中国经济信息社(以下简称中经社)垂直领域数字化应用系统发布仪式在北京举行。在发布仪式上,锚定建设“国家级经济信息旗舰”的目标,中经社推出了八大数字化应用系统。中经社此次发布的行   诺贝尔化学奖获得者阿龙・切哈诺沃:做研究保持好奇心很重要  中新网宁波3月17日电(林波)对于学生而言,如何找到研究的信心和价值,让他们有继续下去的动力?  “做研究保持好奇心很重要。”3月17日,2004年诺贝尔化学 记者3月20日从中国科学技术大学获悉,该校郭光灿院士团队在量子态分辨研究中取得重要进展:他们在最小资源消耗的量子态分辨问题中首次提出了全局最优自适应策略,并发展了自适应集体测量实验技术, 一个国际团队近日在英国《自然》杂志上发表论文说,他们利用湖水样本培养出一种奇特的光合细菌,它属于绿弯菌门一种此前未知的目,代表了光合作用生物进化过程中的过渡形式。新发现为进一步探索远 联合国政府间气候变化专门委员会(IPCC)最新发布的评估报告显示,全球温升预计在2021年至2040年内达到1.5℃。报告指出,自IPCC第五次评估报告发布以来,全球减缓气候变化的政策和法律不断增多,但实施 。

本文链接:大模型一对一战斗75万轮,GPT-4夺冠,Llama 3位列第五http://www.sushuapos.com/show-2-5308-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 1966年杨成武汇报部队建设,毛主席突然插话说 曾国藩杀人很厉害(1966年杨成武汇报部队建设)

下一篇: 黑照变废为宝!超能AI一句话修出创意大片,亲妈看了都说真

热门资讯

推荐资讯

  • 日榜
  • 周榜
  • 月榜