设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

2024-04-06 07:13:53 来源: 量子位

消费级GPU即可微调oXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“只需”10万美元,训练Llama-2级别的大模型。oXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

尺寸更小但性能不减的MoE模型来了:oXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

它叫JetMoE,来自MIT、普林斯顿等研究机构。oXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

性能妥妥超过同等规模的Llama-2。oXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观oXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

△贾扬清转发oXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

要知道,后者可是数十亿美元级别的投入成本。oXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

JetMoE发布即完全开源,且学术界友好:仅使用公开数据集和开源代码,用消费级GPU就能进行微调。oXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不得说,大模型的打造成本,真的比人们想的要便宜更多了。oXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Ps. Stable Diffusion前老板Emad也点了赞:oXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

10万美刀实现Llama-2性能

JetMoE启发于ModuleFormer的稀疏激活架构。oXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

(ModuleFormer,一种基于稀疏专家混合(SMoE)的模块化架构,可提高大模型效率和灵活性,去年6月提出)oXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

它的注意力层中仍然使用了MoE:oXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

80亿参数的JetMoE一共有24个区块,每块包含2个MoE层,分别是注意力头混合 (MoA) 和MLP专家混合 (MoE)。oXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

每个MoA和MoE层又有8个专家,每次输入token激活2个。oXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

JetMoE-8B使用公开数据集中的1.25T token进行训练,学习率5.0 x 10-4,全局batch size为4M token。oXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

具体训练方案遵循MiniCPM(来自面壁智能,2B模型就能赶超Mistral-7B)的思路,共包含两阶段oXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

第一阶段使用线性预热的恒定学习率,用来自大规模开源预训练数据集的1万亿个token进行训练,这些数据集包括RefinedWeb、Pile、Github data等等。oXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

第二阶段则使用指数学习率衰减,用2500亿个token训练来自第一阶段数据集和超高质量开源数据集的token。oXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

最终,团队使用96×H100的GPU集群,花费2周时间、约8万美元搞定JetMoE-8B。oXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

更多技术细节将在不久后发布的技术报告上揭露。oXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而在推理过程中,由于JetMoE-8B仅具有22亿个激活参数,因此计算成本大大降低——oXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

同时,它还收获了不错的性能表现。oXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

如下图所示:oXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

JetMoE-8B在8个评测基准上获得了5个sota(包括大模型竞技场Open LLM Leaderboard),超过LLaMA-13B、LLaMA2-7B和DeepseekMoE-16B。oXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

在MT-Bench基准上得分6.681,也超过了130亿参数的LLaMA2、Vicuna等模型。oXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

作者介绍

JetMoE一共4位作者,分别是:oXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • Yikang Shen

MIT-IBM Watson Lab研究员,研究方向NLP。oXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本硕毕业于北航,博士经历于Yoshua Bengio创办的Mila研究机构。oXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • 国振 (Gavin Guo)

MIT博士在读, 研究方向为3D成像的数据高效机器学习。oXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

UC伯克利本科毕业,去年夏天作为学生研究员加入MIT-IBM Watson Lab,导师为Yikang Shen等人。oXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • 蔡天乐

普林斯顿博士在读生,本科毕业于北大应用数学和计算机科学,目前也是Together.ai 的兼职研究员,与Tri Dao合作。oXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • Zengyi Qin

MIT博士在读,同时在创业,MyShell的AI研发主管。oXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这家公司刚刚融资了1100万美元,投资者包括Transformer的作者。oXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

传送门:
https://github.com/myshell-ai/JetMoEoXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
参考链接:
https://twitter.com/jiayq/status/1775935845205463292oXD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本文链接:10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观http://www.sushuapos.com/show-2-4591-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 超巧 全智贤 宋慧乔在机场撞型,她眼睛都会笑(超巧全智贤宋慧乔在机场撞型)

下一篇: 最懂AI的诺奖经济学得主去世,大模型关键技术受他研究启发

热门资讯

  • 洞悉竹类植物有了称手“利器”

    竹类植物是竹亚科植物的总称,与水稻、小麦、大麦和燕麦同属于禾本科BOP分支,具有重要的经济、生态和文化价值。为更好地服务竹类植物的系统进化和功

  • 我国首个适应高寒气候肉羊品种通过鉴定

    记者19日从兰州大学获悉,天华肉羊通过国家畜禽遗传资源委员会审定鉴定,成为我国首个适应高寒气候的肉羊品种。该品种由兰州大学草地农业科技学院李发

  • AI领域,重磅消息传来!

    AI领域,一则重磅消息传来!最新消息,全球最知名的AI公司——OpenAI将在几个月内发布新版大型语言模型GPT-5,性能将有大幅跃升。目前,ChatGPT使用

  • 人工智能探究癌症发展机理

    据英国《金融时报》网站3月13日报道,科学家们已经在利用人工智能(AI)阐释人体所谓的“黑暗基因组”,并开发一种可能很强大的癌症检测、监测和治疗新

  • “量子龙卷风”吹开黑洞研究之门

    英国科学家首次创造了一个新颖的实验平台,即“量子龙卷风”。它能模拟超流体氦中的黑洞,使研究人员能更详细地观察类似黑洞的行为以及与周围环境的相

  • 鹊桥二号中继星成功发射 将是探月工程四期“关键一环”

    记者从国家航天局获悉,3月20日8时31分,探月工程四期鹊桥二号中继星由长征八号遥三运载火箭在中国文昌航天发射场成功发射升空。科技日报记者 付

  • 我国首个制氢加氢一体站团体标准发布

    我国制氢加氢一体站建设有了团体标准。记者从中国石化获悉,为推动我国氢能交通产业发展,中国石化联合国内数十家氢能头部企业发布了国内首个《制氢加

  • 腾讯发布GiiNEX游戏AI引擎 用AIGC助力游戏研发运营

    3月20日,在2024全球游戏开发者大会(GDC)上,腾讯发布了自研游戏AI引擎——GiiNEX。基于生成式AI和决策AI技术,GiiNEX将为游戏全生命周期提供丰

  • 首款骁龙8 Gen3折叠屏!vivo X Fold3图赏

    3月23日消息,vivo X Fold3系列将于3月26日正式发布,成为全球首款骁龙8 Gen3折叠屏电话。现在这款新机外观已经解禁,下面为大家带来图赏。vivo X Fold3提供

  • huaweiMate 70细节曝光!芯片性能比肩5.5nm、新鸿蒙5.0系统

    3月24日消息,今天数码博主“厂长是关同学”曝光了huaweiMate 70系列电话的部分配置信息。该博主表示,huawei全新的Mate 70系列首发会搭载新的芯片,芯片的

  • 站在“气候行动最前线”,我们该如何行动?

    联合国政府间气候变化专门委员会(IPCC)最新发布的评估报告显示,全球温升预计在2021年至2040年内达到1.5℃。报告指出,自IPCC第五次评估报告发布以来,全

  • 吸烟会增加腹部脂肪

    科学杂志《成瘾》3月21日发表的一项新研究显示,刚开始吸烟和终生吸烟都可能增加腹部脂肪,特别是内脏脂肪。内脏脂肪与心脏病、糖尿病、中风和痴呆症

推荐资讯

  • 日榜
  • 周榜
  • 月榜