设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

新开源之王来了!1320亿参数,还比Llama2-70B快1倍

2024-03-29 09:18:20 来源: 量子位

12T token从头训练OSo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“最强”开源大模型之争,又有新王入局:OSo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大数据巨头Databricks,刚刚发布MoE大模型DBRX,并宣称:OSo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

包括同为混合专家模型的Grok-1和Mixtral。OSo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

新开源之王来了!1320亿参数,还比Llama2-70B快1倍

新王搅局,迅速引发了开源社区的热议。OSo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

毕竟,仅从纸面数据来看,DBRX颇具特点:总参数量为1320亿,但因为是混合专家模型,每次激活参数量仅为360亿OSo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

就是说,在总参数量接近Llama2-70B的2倍的情况下,DBRX的生成速度也比Llama2-70B快1倍OSo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

新开源之王来了!1320亿参数,还比Llama2-70B快1倍

△DBRX vs Llama2-70BOSo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

另外,DBRX是在12T token上从头训练的,训练数据量是Llama2的6倍,远高于Chinchilla定律推荐量。OSo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

网友们的第一反应be like:OSo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

新开源之王来了!1320亿参数,还比Llama2-70B快1倍

首席科学家:打赌输了就把头发染蓝

来看DBRX的具体细节。OSo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

DBRX由16个专家模型组成,每次训练推理会有4个专家处于激活状态。其上下文长度为32K。OSo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

为了训练DBRX,Databricks团队从云厂商那里租用了3072个H100。OSo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一个细节是,团队向Wired透露,经过两个月的训练之后,DBRX已经在基准测试中取得了不错的分数。而在那个时候,他们买的云资源还能再跑一个星期。OSo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

团队因此产生了小小的分歧:是用这些资源来训练一个小杯版本,还是再投喂给模型一些高质量数据,用课程学习(curriculum learning)的方法来提高DBRX在一些特定任务上的能力?OSo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

经过一番热烈的内部讨论,Databricks团队最终决定走课程学习路线。OSo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

正是这一决策使他们收获颇丰:OSo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Databricks首席科学家Jonathan Frankle(就叫他老弗吧)认为,课程学习使得DBRX“产生了有意义的变化”OSo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

具象化一点来说,就是老弗本来觉得DBRX可能搞不太定代码生成,还打赌说如果他判断错了,就去把头发染成蓝色。OSo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而这是他的最新照片:OSo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

新开源之王来了!1320亿参数,还比Llama2-70B快1倍

回到正题,DBRX的测试结果显示,它在语言理解、编程、数学和逻辑方面都达到了SOTA,击败包括Llama2-70B、Mixtral和Grok-1在内的一众开源大模型。OSo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

新开源之王来了!1320亿参数,还比Llama2-70B快1倍

还在大多数基准测试中都击败了GPT-3.5。OSo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

新开源之王来了!1320亿参数,还比Llama2-70B快1倍

Databricks这次开源了DBRX的两个版本:DBRX Base和DBRX Instruct,前者是预训练基础模型,后者则经过指令微调。OSo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

老弗还对Wired透露,他们团队接下来计划对模型训练的那个“最后一周”展开研究,看看DBRX这样强大的模型是如何在其中收获额外技能的。OSo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

值得一提的是,去年6月,Databricks以13亿美元(约93亿人民币)的价格,买下了仅62名员工的AI初创公司MosaicML——OSo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

就是发布了MPT系列开源模型的那家。OSo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

老弗当时就是MosaicML的首席科学家。此后,他和他的团队一起留在了Databricks。OSo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

新开源之王来了!1320亿参数,还比Llama2-70B快1倍

开源社区嗨翻

DBRX发布不到4小时,已经有人把它成功部署到苹果M2芯片笔记本电脑上了。OSo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

新开源之王来了!1320亿参数,还比Llama2-70B快1倍

而大模型竞技场也第一时间开放了DBRX-instruct的投票。OSo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

新开源之王来了!1320亿参数,还比Llama2-70B快1倍

不过,也有人对DBRX的“开源”提出了质疑:OSo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

新开源之王来了!1320亿参数,还比Llama2-70B快1倍

根据Databricks公布的协议,基于DBRX打造的产品,如果月活超过7亿,就必须另行向Databricks提交申请。OSo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

参考连接:
[1]https://www.databricks.com/blog/announcing-dbrx-new-standard-efficient-open-source-customizable-llmsOSo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
[2]https://github.com/databricks/dbrxOSo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
[3]https://www.wired.com/story/dbrx-inside-the-creation-of-the-worlds-most-powerful-open-source-ai-model/OSo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

— 完 —OSo速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本文链接:新开源之王来了!1320亿参数,还比Llama2-70B快1倍http://www.sushuapos.com/show-2-4375-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 专访国药集团总会计师杨珊华博士:坚持创新驱动推动医药行业新质生产力发展

下一篇: 行业独此一款!OPPO Find X7 Ultra卫星通信版全球首发5.5G网络

热门资讯

  • 马斯克开源3140亿参数的Grok,大模型争相开源所为何求?

      马斯克开源3140亿参数的Grok,大模型争相开源所为何求?  作者:刘晓洁  特斯拉CEO埃隆・马斯克(Elon Musk)给大模型领域投下一枚重磅炸弹。  北京时间3月18日凌晨,马斯

  • Sora将如何影响科学与社会

    英国《自然》周刊网站3月12日刊登题为《OpenAI的文生视频工具Sora会如何改变科学——以及社会》的文章,作者为乔纳森·奥卡拉汉,内

  • 人工智能医疗或将破解人体秘密

    美国《新闻周刊》网站2月4日刊登题为《人工智能可能会在数十年内解开人体的秘密》的文章,作者是亚历克斯·菲利普斯,内容编译如下:一位医生(同

  • 达摩院AI加速农业新品种培育 全球23家科研机构“尝鲜”

    记者3月21日获悉,全球植物科学期刊《分子植物》刊载了中国科学家的最新研究,中国农业科学院作物科学研究所、国家南繁研究院与阿里达摩院(湖畔实验室)

  • AI辅助诊断实现无创判定甲状腺结节良恶性

    3月21日,记者从陆军军医大学新桥医院获悉,该院普通外科开通甲乳结节AI早筛门诊,利用AI(人工智能)辅助诊断技术,成功为一名甲状腺乳头状癌患者成功实施手

  • AI伴侣能否带来亲密关系

    自2023年以来,人工智能的“触角”已延伸到生活的方方面面。其中,“人工智能+情感”的赛道正悄然崛起。目前,国内外已经出现了多款较为成熟的AI伴侣应

  • 小龙虾能将锂离子转入食物链

    从手机到手表再到电动汽车,锂离子充电电池为众多设备提供动力。但随着消费者丢弃电子产品的增加,越来越多的锂可能会进入环境。研究人员在美国化学会

  • 京东与OPPO重磅合作:销售额3年翻倍!

    3月23日消息,京东与OPPO战略合作协议签约仪式举行,双方签订未来三年OPPO在京东全渠道实现销售额同比增长100%的目标。在签约仪式上,OPPO高级副CEO、首席产

  • 新疆:南山26米射电望远镜4Gbps宽带VLBI联测首获成功

    记者从中国科学院新疆天文台获悉,近期南山26米射电望远镜在参与欧洲VLBI网组织的联测中,首次成功运用4Gbps宽带、高码率VLBI技术获得干涉条纹。相较

  • 站在“气候行动最前线”,我们该如何行动?

    联合国政府间气候变化专门委员会(IPCC)最新发布的评估报告显示,全球温升预计在2021年至2040年内达到1.5℃。报告指出,自IPCC第五次评估报告发布以来,全

  • 第三颗“厦门造”卫星出征

    3月23日,“天卫科技03星”暨“华祥苑壹号”卫星在厦门举行出征仪式,这是由厦门本土企业天卫科技制造研发的第三颗服务当地建设的商业卫星,标志着厦门

  • “穿上就走”的通用外骨骼面世

    美国佐治亚理工学院机械工程师开发了一种控制机器人外骨骼的通用方法。无需专门训练、特别校准,对复杂算法进行调整后,用户穿上外骨骼就可以直接行走

推荐资讯

  • 日榜
  • 周榜
  • 月榜