消费级GPU即可微调55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
“只需”10万美元,训练Llama-2级别的大模型。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
尺寸更小但性能不减的MoE模型来了:55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
它叫JetMoE,来自MIT、普林斯顿等研究机构。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
性能妥妥超过同等规模的Llama-2。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM△贾扬清转发55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
要知道,后者可是数十亿美元级别的投入成本。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

JetMoE发布即完全开源,且学术界友好:仅使用公开数据集和开源代码,用消费级GPU就能进行微调。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
不得说,大模型的打造成本,真的比人们想的要便宜更多了。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
Ps. Stable Diffusion前老板Emad也点了赞:55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

10万美刀实现Llama-2性能
JetMoE启发于ModuleFormer的稀疏激活架构。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
(ModuleFormer,一种基于稀疏专家混合(SMoE)的模块化架构,可提高大模型效率和灵活性,去年6月提出)55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
它的注意力层中仍然使用了MoE:55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
80亿参数的JetMoE一共有24个区块,每块包含2个MoE层,分别是注意力头混合 (MoA) 和MLP专家混合 (MoE)。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
每个MoA和MoE层又有8个专家,每次输入token激活2个。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

JetMoE-8B使用公开数据集中的1.25T token进行训练,学习率5.0 x 10-4,全局batch size为4M token。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
具体训练方案遵循MiniCPM(来自面壁智能,2B模型就能赶超Mistral-7B)的思路,共包含两阶段:55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
第一阶段使用线性预热的恒定学习率,用来自大规模开源预训练数据集的1万亿个token进行训练,这些数据集包括RefinedWeb、Pile、Github data等等。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

第二阶段则使用指数学习率衰减,用2500亿个token训练来自第一阶段数据集和超高质量开源数据集的token。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最终,团队使用96×H100的GPU集群,花费2周时间、约8万美元搞定JetMoE-8B。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
更多技术细节将在不久后发布的技术报告上揭露。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
而在推理过程中,由于JetMoE-8B仅具有22亿个激活参数,因此计算成本大大降低——55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
同时,它还收获了不错的性能表现。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
如下图所示:55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
JetMoE-8B在8个评测基准上获得了5个sota(包括大模型竞技场Open LLM Leaderboard),超过LLaMA-13B、LLaMA2-7B和DeepseekMoE-16B。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在MT-Bench基准上得分6.681,也超过了130亿参数的LLaMA2、Vicuna等模型。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

作者介绍
JetMoE一共4位作者,分别是:55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
MIT-IBM Watson Lab研究员,研究方向NLP。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
本硕毕业于北航,博士经历于Yoshua Bengio创办的Mila研究机构。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
MIT博士在读, 研究方向为3D成像的数据高效机器学习。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
UC伯克利本科毕业,去年夏天作为学生研究员加入MIT-IBM Watson Lab,导师为Yikang Shen等人。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
普林斯顿博士在读生,本科毕业于北大应用数学和计算机科学,目前也是Together.ai 的兼职研究员,与Tri Dao合作。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
MIT博士在读,同时在创业,MyShell的AI研发主管。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
这家公司刚刚融资了1100万美元,投资者包括Transformer的作者。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

传送门:
https://github.com/myshell-ai/JetMoE55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
参考链接:
https://twitter.com/jiayq/status/177593584520546329255V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
21世纪经济报道见习记者 顾婷婷 杭州报道如何让沉睡在实验室里的专利真正应用到车间,真正面向市场,转化为真正的新质生产力?3月19日,由国家知识产权局组织的高校和科研机构存量专利盘活
据英国《金融时报》网站3月13日报道,科学家们已经在利用人工智能(AI)阐释人体所谓的“黑暗基因组”,并开发一种可能很强大的癌症检测、监测和治疗新方法。美国约翰斯·霍普金斯大学的研
英伟达AI风暴席卷医疗行业 “AI制药”是风口还是泡沫? 季媛媛 全球医疗健康行业正刮起最强AI风暴。 当地时间3月18日,全球瞩目的顶级AI盛会――英伟达2024年GPU技术大会(NVIDIA GTC 2024)正式开幕。据相关
3月22日消息,根据huawei旗舰机型迭代策略,今年上半年将发布影像旗舰huaweiP70系列。然而,这两天一张流出的图片声称huaweiP70将于3月23日开始预售,并附有各个版本的具体售价。但据媒体报道,huawei相关
3月22日消息,一加Ace 3V昨晚发布,起售价1999元,将于3月25日正式发售。现在这款新机已经来到我们评测室,下面为大家带来图赏。一加Ace 3V全球首发第三代骁龙7+移动平台,采用骁龙8 Gen3相同的4nm制程工
3月25日消息,去年huawei在Mate 60系列上首发了玄武机身架构,采用一体化金属机身,搭配上超耐用锦纤材质,使整机的抗挤压能力提高10倍,使用更放心。“玄武”是极其坚固的代表,huawei还在问界M9上采用了“
。
本文链接:10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观http://www.sushuapos.com/show-2-4591-0.html
声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
上一篇: 超巧 全智贤 宋慧乔在机场撞型,她眼睛都会笑(超巧全智贤宋慧乔在机场撞型)
下一篇: 最懂AI的诺奖经济学得主去世,大模型关键技术受他研究启发