快讯科技财经汽车社会旅游娱乐时尚健康生活科学教育

热搜：内地买家入搭载2.8吨京东618全 “十五五” 【好评中国重庆：首批配有十大猥琐

首页 > 科技

10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清SD前CEO围观

发布时间: 2024-04-06 07:13:53 来源：量子位

观看：306

消费级GPU即可微调

“只需”10万美元，训练Llama-2级别的大模型。

尺寸更小但性能不减的MoE模型来了：

它叫JetMoE，来自MIT、普林斯顿等研究机构。

性能妥妥超过同等规模的Llama-2。

10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清SD前CEO围观

△贾扬清转发

要知道，后者可是数十亿美元级别的投入成本。

JetMoE发布即完全开源，且学术界友好：仅使用公开数据集和开源代码，用消费级GPU就能进行微调。

不得说，大模型的打造成本，真的比人们想的要便宜更多了。

Ps. Stable Diffusion前老板Emad也点了赞：

10万美刀实现Llama-2性能

JetMoE启发于ModuleFormer的稀疏激活架构。

（ModuleFormer，一种基于稀疏专家混合(SMoE)的模块化架构，可提高大模型效率和灵活性，去年6月提出）

它的注意力层中仍然使用了MoE：

80亿参数的JetMoE一共有24个区块，每块包含2个MoE层，分别是注意力头混合 (MoA) 和MLP专家混合 (MoE）。

每个MoA和MoE层又有8个专家，每次输入token激活2个。

JetMoE-8B使用公开数据集中的1.25T token进行训练，学习率5.0 x 10-4，全局batch size为4M token。

具体训练方案遵循MiniCPM（来自面壁智能，2B模型就能赶超Mistral-7B）的思路，共包含两阶段：

第一阶段使用线性预热的恒定学习率，用来自大规模开源预训练数据集的1万亿个token进行训练，这些数据集包括RefinedWeb、Pile、Github data等等。

第二阶段则使用指数学习率衰减，用2500亿个token训练来自第一阶段数据集和超高质量开源数据集的token。

最终，团队使用96×H100的GPU集群，花费2周时间、约8万美元搞定JetMoE-8B。

更多技术细节将在不久后发布的技术报告上揭露。

而在推理过程中，由于JetMoE-8B仅具有22亿个激活参数，因此计算成本大大降低——

同时，它还收获了不错的性能表现。

如下图所示：

JetMoE-8B在8个评测基准上获得了5个sota（包括大模型竞技场Open LLM Leaderboard），超过LLaMA-13B、LLaMA2-7B和DeepseekMoE-16B。

在MT-Bench基准上得分6.681，也超过了130亿参数的LLaMA2、Vicuna等模型。

作者介绍

JetMoE一共4位作者，分别是：

Yikang Shen

MIT-IBM Watson Lab研究员，研究方向NLP。

本硕毕业于北航，博士经历于Yoshua Bengio创办的Mila研究机构。

国振 (Gavin Guo)

MIT博士在读，研究方向为3D成像的数据高效机器学习。

UC伯克利本科毕业，去年夏天作为学生研究员加入MIT-IBM Watson Lab，导师为Yikang Shen等人。

蔡天乐

普林斯顿博士在读生，本科毕业于北大应用数学和计算机科学，目前也是Together.ai 的兼职研究员，与Tri Dao合作。

Zengyi Qin

MIT博士在读，同时在创业，MyShell的AI研发主管。

这家公司刚刚融资了1100万美元，投资者包括Transformer的作者。

传送门：
https://github.com/myshell-ai/JetMoE
参考链接：
https://twitter.com/jiayq/status/1775935845205463292

21世纪经济报道见习记者顾婷婷杭州报道如何让沉睡在实验室里的专利真正应用到车间，真正面向市场，转化为真正的新质生产力？3月19日，由国家知识产权局组织的高校和科研机构存量专利盘活据英国《金融时报》网站3月13日报道，科学家们已经在利用人工智能(AI)阐释人体所谓的“黑暗基因组”，并开发一种可能很强大的癌症检测、监测和治疗新方法。美国约翰斯·霍普金斯大学的研　　英伟达AI风暴席卷医疗行业 “AI制药”是风口还是泡沫？　　季媛媛　　全球医疗健康行业正刮起最强AI风暴。　　当地时间3月18日，全球瞩目的顶级AI盛会――英伟达2024年GPU技术大会(NVIDIA GTC 2024)正式开幕。据相关 3月22日消息，根据huawei旗舰机型迭代策略，今年上半年将发布影像旗舰huaweiP70系列。然而，这两天一张流出的图片声称huaweiP70将于3月23日开始预售，并附有各个版本的具体售价。但据媒体报道，huawei相关 3月22日消息，一加Ace 3V昨晚发布，起售价1999元，将于3月25日正式发售。现在这款新机已经来到我们评测室，下面为大家带来图赏。一加Ace 3V全球首发第三代骁龙7+移动平台，采用骁龙8 Gen3相同的4nm制程工 3月25日消息，去年huawei在Mate 60系列上首发了玄武机身架构，采用一体化金属机身，搭配上超耐用锦纤材质，使整机的抗挤压能力提高10倍，使用更放心。“玄武”是极其坚固的代表，huawei还在问界M9上采用了“ 。

本文链接：10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清SD前CEO围观http://www.sushuapos.com/show-2-4591-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：超巧全智贤宋慧乔在机场撞型，她眼睛都会笑（超巧全智贤宋慧乔在机场撞型）

下一篇：最懂AI的诺奖经济学得主去世，大模型关键技术受他研究启发

10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清SD前CEO围观

10万美刀实现Llama-2性能

作者介绍

热门资讯

推荐资讯

科技最热文章