设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

开源模型首胜GPT-4!竞技场最新战报引热议,Karpathy:这是我唯二信任的榜单

2024-04-11 07:26:04 来源: 量子位

来自Transformer作者创业公司taC速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

能打得过GPT-4的开源模型出现了!taC速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型竞技场最新战报:taC速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

1040亿参数开源模型Command R+攀升至第6位,与GPT-4-0314打成平手,超过了GPT-4-0613。taC速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源模型首胜GPT-4!竞技场最新战报引热议,Karpathy:这是我唯二信任的榜单

这也是第一个在大模型竞技场上击败GPT-4的开放权重模型。taC速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型竞技场,可是大神Karpathy口中唯二信任的测试基准之一。taC速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源模型首胜GPT-4!竞技场最新战报引热议,Karpathy:这是我唯二信任的榜单

Command R+来自AI独角兽Cohere。这家大模型创业公司的联合创始人兼CEO,正是Transformer最年轻作者Aidan Gomez(简称割麦子)。taC速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源模型首胜GPT-4!竞技场最新战报引热议,Karpathy:这是我唯二信任的榜单

这份战报一出,又掀起了一波大模型社区的热烈讨论。taC速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大家伙儿兴奋的理由很简单:基础大模型卷了一整年,没想到在2024年格局还在不断地发展变化。taC速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

HuggingFace联合创始人Thomas Wolf就说:taC速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源模型首胜GPT-4!竞技场最新战报引热议,Karpathy:这是我唯二信任的榜单

另外,Cohere机器学习总监Nils Reimers还指出了值得关注的一点:taC速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Command R+最大的特色是对内置RAG(检索增强生成)进行了全面优化,而在大模型竞技场中,RAG这样的外挂能力并未纳入测试。taC速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源模型首胜GPT-4!竞技场最新战报引热议,Karpathy:这是我唯二信任的榜单

RAG优化模型登上开源王座

在Cohere官方定位中,Command R+是一个“RAG优化模型”。taC速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

就是说,这个1040亿参数的大模型主要针对检索增强生成技术进行了深度优化,以减少幻觉的产生,更适配于企业级工作负载taC速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

和此前推出的Command R一样,Command R+的上下文窗口长度是128k。taC速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外,Command R+还具备以下特点:taC速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • 覆盖10+种语言,包括英语、中文、法语、德语等;
  • 能使用工具完成复杂业务流程的自动化

从测试结果来看,在多语种、RAG和工具使用这三个维度上,Command R+都达到了GPT-4 turbo的水平。taC速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

但在输入成本方面,Command R+的价格仅为GPT-4 turbo的1/3。taC速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

输出成本方面,Command R+则是GPT-4 turbo的1/2。taC速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源模型首胜GPT-4!竞技场最新战报引热议,Karpathy:这是我唯二信任的榜单

正是这点引发了不少网友的关注:taC速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源模型首胜GPT-4!竞技场最新战报引热议,Karpathy:这是我唯二信任的榜单

不过,尽管在大模型竞技场这种人类主观评测上表现抢眼,还是有网友甩出了一些不同观点。taC速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在HumanEval上,Command R+的代码能力就连GPT-3.5都没打过,在两组测试中分别排在32位和33位。taC速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最新版GPT-4 turbo则没有悬念地拿下了第一。taC速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源模型首胜GPT-4!竞技场最新战报引热议,Karpathy:这是我唯二信任的榜单

另外,我们也在最近刚登上正经论文的弱智吧benchmark上简单测试了一下Command R+的中文能力。taC速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源模型首胜GPT-4!竞技场最新战报引热议,Karpathy:这是我唯二信任的榜单

你给打个分?taC速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

需要说明的是,Command R+的开源只面向学术研究,并不能免费商用。taC速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

One More Thing

最后的最后,还是多聊一嘴割麦子小哥。taC速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Aidan Gomez,Transformer圆桌骑士中最年轻的一位,加入研究团队时只是个本科生——taC速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不过,是在多伦多大学读大三时就加入了Hinton实验室的那种。taC速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

2018年,割麦子被牛津大学录取,开始像他的论文搭子们那样攻读CS博士学位。taC速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

但在2019年,随着Cohere的创立,他最终选择退学加入AI创业的浪潮。taC速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Cohere主要是为企业提供大模型解决方案,目前估值达到了22亿美元。taC速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

参考链接:
[1]https://twitter.com/lmsysorg/status/1777630133798772766taC速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
[2]https://txt.cohere.com/command-r-plus-microsoft-azure/taC速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

— 完 —taC速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本文链接:开源模型首胜GPT-4!竞技场最新战报引热议,Karpathy:这是我唯二信任的榜单http://www.sushuapos.com/show-2-4735-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 2019年全球云计算企业排行榜TOP50(2019年全球云计算企业排行榜TOP50)

下一篇: AI算力提高,高能耗和难散热问题如何突破?

热门资讯

  • 站在“人工智能+”探索前列

    今年全国两会期间,人工智能成为热点话题,“人工智能+”首次被写入政府工作报告。一头连着数字经济发展大局,一头连着行业变革与创新,“人工智能+”既是

  • 明天氢能荣获国家电网科技进步奖一等奖

    记者3月18日从安徽明天氢能科技股份有限公司(以下简称明天氢能)获悉,国家电网近日向明天氢能及董事长王朝云分别授予科学技术进步奖一等奖,获奖项目为

  • 创新中药八子补肾胶囊抗衰老研究取得重大突破

    3月20日对于我国抗衰老研究是个特殊的日子,经过近3年的不懈努力,八子补肾胶囊抗衰老取得又一重大突破。挑战人类生命极限是摆在全球科学家面前的重大

  • 我科学家实现最小资源消耗的量子态分辨

    记者3月20日从中国科学技术大学获悉,该校郭光灿院士团队在量子态分辨研究中取得重要进展。研究组在最小资源消耗的量子态分辨问题中首次提出了全局

  • AI+智能家居赋能健康睡眠

    3月21日是第二十五个“世界睡眠日”,中国睡眠研究会联合慕思集团在北京正式发布《2024情绪与健康睡眠白皮书》(以下简称《白皮书》)。《白皮书》指出,

  • 多层人造皮肤18天内长成

    美国和法国的科学家联合团队借助新的3D打印技术,开发出一种多层人造皮肤,只需18天即可长成。这种仿真皮肤可用于提升护肤品测试效率,并催生更好的皮肤

  • 首发第三代骁龙7+!一加Ace 3V图赏

    3月22日消息,一加Ace 3V昨晚发布,起售价1999元,将于3月25日正式发售。现在这款新机已经来到我们评测室,下面为大家带来图赏。一加Ace 3V全球首发第三代骁龙

  • 男孩捡17岁女生iPhone电话归还反被讹200元引热议:最终获道歉

    3月24日消息,今日一则#男孩捡17岁女生电话归还反被讹200#的话题登上微博热搜,引发网民热议。据报道,3月23日,山西长治。郭女士父亲捡到一台iPhone电话,归还

  • Kimi掀起国产大模型长文本竞赛

    作为月之暗面的创始人,杨植麟常把他的AGI梦想形容为“登月计划”,长文本就是这个伟大计划的第一步。但现在,随着Kimi的爆火出圈,赛道瞬间变得

  • 科研团队首次揭示全国范围内蚊虫病毒组特征

    记者3月22日获悉,中山大学、深圳华大生命科学研究院与复旦大学的研究团队合作,揭示了多种蚊虫在不同生境下病毒的多样性、传播分布的影响因素及地理

  • 全球变暖跟哪些因素有关?IPCC是什么?一文了解

    今天(23日)是第64个世界气象日,今年世界气象日的主题是“气候行动最前线”。地球是人类赖以生存和发展的家园,气候变化给人类造成的影响广泛而深远,关乎

  • “捕风捉光”,气象服务助力新能源发电

    今年3月23日是第64个世界气象日,主题是“气候行动最前线”。面对愈加频繁的极端天气和全球变暖等气候危机,减缓气候变化已刻不容缓。发展新能源是应

推荐资讯

  • 日榜
  • 周榜
  • 月榜