设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

发布时间: 2024-04-06 07:13:53 来源: 量子位

消费级GPU即可微调55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“只需”10万美元,训练Llama-2级别的大模型。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

尺寸更小但性能不减的MoE模型来了:55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

它叫JetMoE,来自MIT、普林斯顿等研究机构。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

性能妥妥超过同等规模的Llama-2。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

△贾扬清转发55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

要知道,后者可是数十亿美元级别的投入成本。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

JetMoE发布即完全开源,且学术界友好:仅使用公开数据集和开源代码,用消费级GPU就能进行微调。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不得说,大模型的打造成本,真的比人们想的要便宜更多了。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Ps. Stable Diffusion前老板Emad也点了赞:55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

10万美刀实现Llama-2性能

JetMoE启发于ModuleFormer的稀疏激活架构。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

(ModuleFormer,一种基于稀疏专家混合(SMoE)的模块化架构,可提高大模型效率和灵活性,去年6月提出)55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

它的注意力层中仍然使用了MoE:55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

80亿参数的JetMoE一共有24个区块,每块包含2个MoE层,分别是注意力头混合 (MoA) 和MLP专家混合 (MoE)。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

每个MoA和MoE层又有8个专家,每次输入token激活2个。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

JetMoE-8B使用公开数据集中的1.25T token进行训练,学习率5.0 x 10-4,全局batch size为4M token。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

具体训练方案遵循MiniCPM(来自面壁智能,2B模型就能赶超Mistral-7B)的思路,共包含两阶段55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

第一阶段使用线性预热的恒定学习率,用来自大规模开源预训练数据集的1万亿个token进行训练,这些数据集包括RefinedWeb、Pile、Github data等等。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

第二阶段则使用指数学习率衰减,用2500亿个token训练来自第一阶段数据集和超高质量开源数据集的token。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

最终,团队使用96×H100的GPU集群,花费2周时间、约8万美元搞定JetMoE-8B。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

更多技术细节将在不久后发布的技术报告上揭露。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而在推理过程中,由于JetMoE-8B仅具有22亿个激活参数,因此计算成本大大降低——55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

同时,它还收获了不错的性能表现。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

如下图所示:55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

JetMoE-8B在8个评测基准上获得了5个sota(包括大模型竞技场Open LLM Leaderboard),超过LLaMA-13B、LLaMA2-7B和DeepseekMoE-16B。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

在MT-Bench基准上得分6.681,也超过了130亿参数的LLaMA2、Vicuna等模型。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

作者介绍

JetMoE一共4位作者,分别是:55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • Yikang Shen

MIT-IBM Watson Lab研究员,研究方向NLP。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本硕毕业于北航,博士经历于Yoshua Bengio创办的Mila研究机构。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • 国振 (Gavin Guo)

MIT博士在读, 研究方向为3D成像的数据高效机器学习。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

UC伯克利本科毕业,去年夏天作为学生研究员加入MIT-IBM Watson Lab,导师为Yikang Shen等人。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • 蔡天乐

普林斯顿博士在读生,本科毕业于北大应用数学和计算机科学,目前也是Together.ai 的兼职研究员,与Tri Dao合作。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • Zengyi Qin

MIT博士在读,同时在创业,MyShell的AI研发主管。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这家公司刚刚融资了1100万美元,投资者包括Transformer的作者。55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

传送门:
https://github.com/myshell-ai/JetMoE55V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
参考链接:
https://twitter.com/jiayq/status/177593584520546329255V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

21世纪经济报道见习记者 顾婷婷 杭州报道如何让沉睡在实验室里的专利真正应用到车间,真正面向市场,转化为真正的新质生产力?3月19日,由国家知识产权局组织的高校和科研机构存量专利盘活 据英国《金融时报》网站3月13日报道,科学家们已经在利用人工智能(AI)阐释人体所谓的“黑暗基因组”,并开发一种可能很强大的癌症检测、监测和治疗新方法。美国约翰斯·霍普金斯大学的研   英伟达AI风暴席卷医疗行业 “AI制药”是风口还是泡沫?  季媛媛  全球医疗健康行业正刮起最强AI风暴。  当地时间3月18日,全球瞩目的顶级AI盛会――英伟达2024年GPU技术大会(NVIDIA GTC 2024)正式开幕。据相关 3月22日消息,根据huawei旗舰机型迭代策略,今年上半年将发布影像旗舰huaweiP70系列。然而,这两天一张流出的图片声称huaweiP70将于3月23日开始预售,并附有各个版本的具体售价。但据媒体报道,huawei相关 3月22日消息,一加Ace 3V昨晚发布,起售价1999元,将于3月25日正式发售。现在这款新机已经来到我们评测室,下面为大家带来图赏。一加Ace 3V全球首发第三代骁龙7+移动平台,采用骁龙8 Gen3相同的4nm制程工 3月25日消息,去年huawei在Mate 60系列上首发了玄武机身架构,采用一体化金属机身,搭配上超耐用锦纤材质,使整机的抗挤压能力提高10倍,使用更放心。“玄武”是极其坚固的代表,huawei还在问界M9上采用了“ 。

本文链接:10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观http://www.sushuapos.com/show-2-4591-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 超巧 全智贤 宋慧乔在机场撞型,她眼睛都会笑(超巧全智贤宋慧乔在机场撞型)

下一篇: 最懂AI的诺奖经济学得主去世,大模型关键技术受他研究启发

热门资讯

  • 全国首个煤炭行业能源智算中心在山西建成

    3月18日,记者从山西省人民政府获悉,“山西煤炭工业互联网智算平台”日前在山西联通大数据中心建设完成。该平台由中国联通与山西晋云互联科技有限公

  • 活性氧响应性材料 向肠炎部位精准投药

    3月17日,记者从陆军军医大学西南医院获悉,该院消化内科教授陈磊团队联合陆军军医大学教授张定林首次提出,活性氧响应性纳米材料能够把程序性死亡配体-

  • 中经社发布垂直领域数字化应用系统 为行业提供数智化解决方案

    3月18日,中国经济信息社(以下简称中经社)垂直领域数字化应用系统发布仪式在北京举行。在发布仪式上,锚定建设“国家级经济信息旗舰”的目标,中经社推出

  • 培育一批专利产业化样板企业

    近日,国家知识产权局等五部门联合印发了《专利产业化促进中小企业成长计划实施方案》(以下简称《实施方案》)。《实施方案》提出,到2025年底,中小企业知

  • 日学者提出“深海激励化学”新概念

    日本《朝日新闻》近日发表题为《深海之光——极端环境是创意宝库》的文章,作者是樱井林太郎,编译如下:在被称为最后未开垦地的深海,有着低温

  • 科学家用人工智能设计全新抗体

    据英国《自然》杂志网站19日报道,美国华盛顿大学科学家首次使用生成式人工智能(AI)工具,帮助他们制造全新抗体。研究团队表示,AI设计抗体或能更好靶向一

  • 我国网民规模达10.92亿人:互联网普及率77.5%!

    3月22日消息,中国互联网络信息中心(CNNIC)今天发布了《中国互联网络变化状况计算报告》。《报告》显示,截至2023年12月,我国网民规模达10.92亿人,较2022年12

  • 首款骁龙8 Gen3折叠屏!vivo X Fold3图赏

    3月23日消息,vivo X Fold3系列将于3月26日正式发布,成为全球首款骁龙8 Gen3折叠屏电话。现在这款新机外观已经解禁,下面为大家带来图赏。vivo X Fold3提供

  • 京东与OPPO重磅合作:销售额3年翻倍!

    3月23日消息,京东与OPPO战略合作协议签约仪式举行,双方签订未来三年OPPO在京东全渠道实现销售额同比增长100%的目标。在签约仪式上,OPPO高级副CEO、首席产

  • 不用贴膜了!huaweiMate 70系列搭载“玄武镀膜”:防划、防反光

    3月25日消息,去年huawei在Mate 60系列上首发了玄武机身架构,采用一体化金属机身,搭配上超耐用锦纤材质,使整机的抗挤压能力提高10倍,使用更放心。“玄武”是

  • 英媒:人工智能助力抗体设计

    据英国《自然》周刊网站3月19日报道,研究人员首次利用生成式人工智能(AI)制造出全新抗体。报道称,本周生物学预印本资料库中的一份预印本报告的原理验

  • 吸烟会增加腹部脂肪

    科学杂志《成瘾》3月21日发表的一项新研究显示,刚开始吸烟和终生吸烟都可能增加腹部脂肪,特别是内脏脂肪。内脏脂肪与心脏病、糖尿病、中风和痴呆症

推荐资讯

  • 日榜
  • 周榜
  • 月榜