设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%

发布时间: 2024-05-06 12:46:30 来源: 量子位

若无远虑必有近忧?2rA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“预测下一个token”被认为是大模型的基本范式,一次预测多个tokens又会怎样?2rA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Meta AI法国团队推出“基于多token预测的更快&更好大模型”。2rA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%

多token预测模型,在编程类任务上表现尤其突出2rA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

与单token预测相比,13B参数模型在HumanEval上多解决了12%的问题,在MBPP上多解决了17%。2rA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%

小型算法推理任务上,多token预测也在分布外泛化方面带来了令人印象深刻的收益。2rA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%

不过在自然语言任务上,多token预测方法并不能显著提高7B模型在数学选择题上的表现了。2rA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%

另外一个好处是,即使batch size较大,使用4-token预测训练的模型,推理速度也可提高3倍2rA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

多token预测更适合编程

具体来说,团队设计了一种新的多token预测架构,通过n个独立的输出头并行预测n个未来token。2rA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

使用大量文本数据进行模型训练,包括代码和自然语言数据集。2rA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

再通过实验比较多token预测和单token预测在多个下游任务上的性能。2rA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%

为啥多token预测在编程任务和小型算法推理任务上提升更明显?2rA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

团队猜测可能有两个原因:2rA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

第一,编程语言的逻辑结构更严谨,知识的内在联系更紧密。一个关键节点可能影响到后续整个代码块的走向。多Token预测能更好捕捉这种长距离依赖。2rA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

第二,相比自然语言,编程语言的词汇量更小。因此即便每次预测多个Token,难度也没那么大。反而能迫使模型从局部细节中抽身,着眼全局优化。2rA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%

除了在token层面的实验,团队还在更细粒度的字节级模型上做了尝试。2rA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

他们发现,用8字节预测替代下一个字节预测后,模型在MBPP上的Pass@1指标暴增67%,在HumanEval上也提升了20%。2rA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而且推理速度还能再快6倍,简直不要太香。2rA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%

对于背后原理,团队认为多token预测缓解了训练时Teacher Forcing和推理时自回归生成之间的分布差异2rA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

也就是说,在训练的时候,模型看到的都是标准答案,生成的时候却得靠自己。好比人类在家做练习册时有答案,考试时却啥也没有,就会不适应。2rA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而多token预测相当于训练时就逼着模型多想几步,这样到了考场上,才能应对自如。2rA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

从信息论的角度,团队还给出了一个更精确的论证。2rA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

传统的下一个Token预测,目标是最小化当前位置的信息熵。而2-Token预测实际上最小化的是当前和下一位置的信息熵之和。2rA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

数学推导表明,后者其实隐含了更大的互信息权重,也就是更看重当前Token和未来Token的相关性。这就是为什么多Token预测更”有远见”。2rA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不过在这篇论文中,还有几个未解决的问题。2rA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

比如没有探讨如何自动选择最佳的预测token数量n,作者提出,未来可以研究使用损失权重调整或动态调整n来解决最佳n的选择问题2rA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外最佳的词表大小也可能与单token预测时不同。2rA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

总之,看过这篇论文之后,大家都更期待Llama-4了。2rA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%

论文地址:
https://arxiv.org/abs/2404.197372rA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

民俗有言:桃花开,痴子忙。昨日,一大学生患“桃花癫”登上微博热搜,引发热议。该大学生认为周围女生都喜欢自己,并向全校的女生分别告白。不仅如此,由于精神的持续亢奋,该大学生还经常出现整晚不睡觉 在今天的故宫,工作人员使用的数字化办公平台名叫“内务辅”,这款应用的开发者,是与故宫博物院合作的钉钉(中国)信息技术有限公司(以下简称“钉钉”)。3月18日,故宫博物院与钉钉战略合作签约仪式在故 美国布朗大学研究团队在最新一期《自然·电子学》上描述了一种无线通信网络。它可有效地传输、接收和解码来自数千个微电子芯片的数据。研究团队试图模仿大脑神秘且高效的工作方式。对 据英国《每日电讯报》网站3月18日报道,根据英国政府的新航空计划,首批电动飞行出租车将于2026年试飞。周一发布的《“飞行未来”行动计划》为飞行出租车在2030年广泛使用铺平道路。尽管在最初 记者3月22日获悉,中山大学、深圳华大生命科学研究院与复旦大学的研究团队合作,揭示了多种蚊虫在不同生境下病毒的多样性、传播分布的影响因素及地理谱系特征,在多维尺度上为研究蚊虫病毒组提供 “人工智能作为数字新基建重点建设方向,前景广阔,大有作为。今年的政府工作报告更首次提出开展‘人工智能+’行动,无疑将为人工智能技术在国内各行各业的广泛应用开启新篇章。”3月22 。

本文链接:一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%http://www.sushuapos.com/show-2-5645-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 阿里林俊旸:大模型对很多人来说不够用,打造多模态Agent是关键 | 中国AIGC产业峰会

下一篇: 美图吴欣鸿:国产Sora竞争关键,在创意、工作流和垂直场景 | 中国AIGC产业峰会

热门资讯

推荐资讯

  • 日榜
  • 周榜
  • 月榜