设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%

发布时间: 来源: 量子位

若无远虑必有近忧?DAU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“预测下一个token”被认为是大模型的基本范式,一次预测多个tokens又会怎样?DAU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Meta AI法国团队推出“基于多token预测的更快&更好大模型”。DAU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%

多token预测模型,在编程类任务上表现尤其突出DAU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

与单token预测相比,13B参数模型在HumanEval上多解决了12%的问题,在MBPP上多解决了17%。DAU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%

小型算法推理任务上,多token预测也在分布外泛化方面带来了令人印象深刻的收益。DAU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%

不过在自然语言任务上,多token预测方法并不能显著提高7B模型在数学选择题上的表现了。DAU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%

另外一个好处是,即使batch size较大,使用4-token预测训练的模型,推理速度也可提高3倍DAU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

多token预测更适合编程

具体来说,团队设计了一种新的多token预测架构,通过n个独立的输出头并行预测n个未来token。DAU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

使用大量文本数据进行模型训练,包括代码和自然语言数据集。DAU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

再通过实验比较多token预测和单token预测在多个下游任务上的性能。DAU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%

为啥多token预测在编程任务和小型算法推理任务上提升更明显?DAU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

团队猜测可能有两个原因:DAU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

第一,编程语言的逻辑结构更严谨,知识的内在联系更紧密。一个关键节点可能影响到后续整个代码块的走向。多Token预测能更好捕捉这种长距离依赖。DAU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

第二,相比自然语言,编程语言的词汇量更小。因此即便每次预测多个Token,难度也没那么大。反而能迫使模型从局部细节中抽身,着眼全局优化。DAU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%

除了在token层面的实验,团队还在更细粒度的字节级模型上做了尝试。DAU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

他们发现,用8字节预测替代下一个字节预测后,模型在MBPP上的Pass@1指标暴增67%,在HumanEval上也提升了20%。DAU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而且推理速度还能再快6倍,简直不要太香。DAU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%

对于背后原理,团队认为多token预测缓解了训练时Teacher Forcing和推理时自回归生成之间的分布差异DAU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

也就是说,在训练的时候,模型看到的都是标准答案,生成的时候却得靠自己。好比人类在家做练习册时有答案,考试时却啥也没有,就会不适应。DAU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而多token预测相当于训练时就逼着模型多想几步,这样到了考场上,才能应对自如。DAU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

从信息论的角度,团队还给出了一个更精确的论证。DAU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

传统的下一个Token预测,目标是最小化当前位置的信息熵。而2-Token预测实际上最小化的是当前和下一位置的信息熵之和。DAU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

数学推导表明,后者其实隐含了更大的互信息权重,也就是更看重当前Token和未来Token的相关性。这就是为什么多Token预测更”有远见”。DAU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不过在这篇论文中,还有几个未解决的问题。DAU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

比如没有探讨如何自动选择最佳的预测token数量n,作者提出,未来可以研究使用损失权重调整或动态调整n来解决最佳n的选择问题DAU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外最佳的词表大小也可能与单token预测时不同。DAU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

总之,看过这篇论文之后,大家都更期待Llama-4了。DAU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%

论文地址:
https://arxiv.org/abs/2404.19737DAU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

3月18日,记者从山西省人民政府获悉,“山西煤炭工业互联网智算平台”日前在山西联通大数据中心建设完成。该平台由中国联通与山西晋云互联科技有限公司共同打造,是山西省目前唯一的垂直行业类智 英国《自然》周刊网站3月12日刊登题为《OpenAI的文生视频工具Sora会如何改变科学——以及社会》的文章,作者为乔纳森·奥卡拉汉,内容编译如下:美国开放人工智能研究中心(OpenAI 记者3月20日从西安交通大学第二附属医院获悉,该院皮肤病院夏育民教授科研团队研究设计了一种靶向抗双链抗体的D型模拟肽(D-ALW多肽)纳米微粒,成功应用于MRL/lpr红斑狼疮小鼠模型的治疗,为目前红斑 玻璃,是我们日常生活中常见且应用非常广泛的一种材料,如外墙、窗户、杯子、灯饰……但玻璃的应用远不止于此。2024年3月22日14时,由中国下一代教育基金会与中国平安共同主办、科技 一加Ace 3V刚发布,就被红米砍了一刀!随着昨天一加Ace 3V的发布,新一轮中端机的内卷终于拉开了序幕。 而且这电话售价居然还不增反降,直接1999起步。 先来回顾下它的配置,外观相比上一代有所变化,依旧是 有消息称,iPhone在中国寻找本土生成式AI提供方,iPhone讨论了在中国的设备中使用百度的人工智能技术。据《华尔街日报》报道,iPhone与百度进行了谈判,以授权其型号。这可能是为了向中国的iPhone客户提 。

本文链接:一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%http://www.sushuapos.com/show-2-5645-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 阿里林俊旸:大模型对很多人来说不够用,打造多模态Agent是关键 | 中国AIGC产业峰会

下一篇: 美图吴欣鸿:国产Sora竞争关键,在创意、工作流和垂直场景 | 中国AIGC产业峰会

热门资讯

  • 马斯克开源3140亿参数的Grok,大模型争相开源所为何求?

      马斯克开源3140亿参数的Grok,大模型争相开源所为何求?  作者:刘晓洁  特斯拉CEO埃隆・马斯克(Elon Musk)给大模型领域投下一枚重磅炸弹。  北京时间3月18日凌晨,马斯

  • 人工智能医疗或将破解人体秘密

    美国《新闻周刊》网站2月4日刊登题为《人工智能可能会在数十年内解开人体的秘密》的文章,作者是亚历克斯·菲利普斯,内容编译如下:一位医生(同

  • 什么是“时空连续体”?

    英国“我超爱科学”网站1月1日刊登题为《什么是“时空连续体”?》的文章,作者是斯蒂芬·伦茨,内容编译如下:“时空连续体”(space-time continuu

  • 人工智能重新定义职场技能

    据阿根廷布宜诺斯艾利斯经济新闻网2月19日报道,在人工智能(AI)迅速重新定义就业格局的今天,通常被称为“软”技能的人类技能成为最有韧性、最有价值

  • 日学者提出“深海激励化学”新概念

    日本《朝日新闻》近日发表题为《深海之光——极端环境是创意宝库》的文章,作者是樱井林太郎,编译如下:在被称为最后未开垦地的深海,有着低温

  • 12项首创技术助力高速公路改扩建

    记者3月20日来到广东深汕西高速公路改扩建施工现场,看到智能机器人、自动化生产线等智能制造设备在不停运行。3月19日—20日,由茅以升科技教育

  • 省电“神器”是“黑科技”还是智商税?

    3月15日,我国一些地区停止居民集中供热。初春时节,乍暖还寒。停暖初期昼夜温差较大,老人、儿童等身体较弱者,可能需要使用电暖气、电热毯等取暖设备,这

  • 腾讯发布GiiNEX游戏AI引擎 用AIGC助力游戏研发运营

    3月20日,在2024全球游戏开发者大会(GDC)上,腾讯发布了自研游戏AI引擎——GiiNEX。基于生成式AI和决策AI技术,GiiNEX将为游戏全生命周期提供丰

  • 人工纳米流体突触可实现存内计算

    瑞士洛桑联邦理工学院工程学院研究团队制造了一种用于内存的新型纳米流体设备,这使他们第一次能连接两个“人工突触”。该设备为受大脑启发的液体硬

  • 限量抢!xiaomiCivi 4 Pro限定色真机照来了:3599元

    3月23日消息,xiaomi集团王晓雁晒出了xiaomiCivi 4 Pro限定色真机照,该系列共有三款颜色,分别是蓝色、粉色和黑与白,定价为3599元,将于4月1日开始发售。据了

  • 聚焦AI框架技术创新 加速大模型规模化落地

    “人工智能作为数字新基建重点建设方向,前景广阔,大有作为。今年的政府工作报告更首次提出开展‘人工智能+’行动,无疑将为人工智能技术在

  • 北京市青少年科学教育基地揭牌

    为构建有效联动、密切配合的青少年科学教育协同机制,提升科学教育实施效能,3月23日,北京市关心下一代工作委员会(以下简称“北京市关工委”)、北京市科

推荐资讯

  • 日榜
  • 周榜
  • 月榜