设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%

发布时间: 来源: 量子位

若无远虑必有近忧?f8h速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“预测下一个token”被认为是大模型的基本范式,一次预测多个tokens又会怎样?f8h速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Meta AI法国团队推出“基于多token预测的更快&更好大模型”。f8h速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%

多token预测模型,在编程类任务上表现尤其突出f8h速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

与单token预测相比,13B参数模型在HumanEval上多解决了12%的问题,在MBPP上多解决了17%。f8h速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%

小型算法推理任务上,多token预测也在分布外泛化方面带来了令人印象深刻的收益。f8h速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%

不过在自然语言任务上,多token预测方法并不能显著提高7B模型在数学选择题上的表现了。f8h速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%

另外一个好处是,即使batch size较大,使用4-token预测训练的模型,推理速度也可提高3倍f8h速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

多token预测更适合编程

具体来说,团队设计了一种新的多token预测架构,通过n个独立的输出头并行预测n个未来token。f8h速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

使用大量文本数据进行模型训练,包括代码和自然语言数据集。f8h速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

再通过实验比较多token预测和单token预测在多个下游任务上的性能。f8h速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%

为啥多token预测在编程任务和小型算法推理任务上提升更明显?f8h速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

团队猜测可能有两个原因:f8h速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

第一,编程语言的逻辑结构更严谨,知识的内在联系更紧密。一个关键节点可能影响到后续整个代码块的走向。多Token预测能更好捕捉这种长距离依赖。f8h速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

第二,相比自然语言,编程语言的词汇量更小。因此即便每次预测多个Token,难度也没那么大。反而能迫使模型从局部细节中抽身,着眼全局优化。f8h速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%

除了在token层面的实验,团队还在更细粒度的字节级模型上做了尝试。f8h速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

他们发现,用8字节预测替代下一个字节预测后,模型在MBPP上的Pass@1指标暴增67%,在HumanEval上也提升了20%。f8h速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而且推理速度还能再快6倍,简直不要太香。f8h速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%

对于背后原理,团队认为多token预测缓解了训练时Teacher Forcing和推理时自回归生成之间的分布差异f8h速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

也就是说,在训练的时候,模型看到的都是标准答案,生成的时候却得靠自己。好比人类在家做练习册时有答案,考试时却啥也没有,就会不适应。f8h速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而多token预测相当于训练时就逼着模型多想几步,这样到了考场上,才能应对自如。f8h速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

从信息论的角度,团队还给出了一个更精确的论证。f8h速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

传统的下一个Token预测,目标是最小化当前位置的信息熵。而2-Token预测实际上最小化的是当前和下一位置的信息熵之和。f8h速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

数学推导表明,后者其实隐含了更大的互信息权重,也就是更看重当前Token和未来Token的相关性。这就是为什么多Token预测更”有远见”。f8h速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不过在这篇论文中,还有几个未解决的问题。f8h速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

比如没有探讨如何自动选择最佳的预测token数量n,作者提出,未来可以研究使用损失权重调整或动态调整n来解决最佳n的选择问题f8h速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外最佳的词表大小也可能与单token预测时不同。f8h速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

总之,看过这篇论文之后,大家都更期待Llama-4了。f8h速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%

论文地址:
https://arxiv.org/abs/2404.19737f8h速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

今年全国两会期间,人工智能成为热点话题,“人工智能+”首次被写入政府工作报告。一头连着数字经济发展大局,一头连着行业变革与创新,“人工智能+”既是新质生产力发展的“新引擎”,也是产业和消费 国际天文学家团队绘制了迄今最大的三维宇宙地图,记录了大约130万个活跃类星体在空间和时间上的位置。它将成为探测类星体、暗物质晕和超大质量黑洞的强大工具。发表在最新一期《天体物理学杂 自2019年以来,科学家已经在国际空间站上培育出了包括人类大脑、心脏和乳房在内的多个类器官模型。这些类器官通常利用人类干细胞培育而成,在一系列化学生长物质的帮助下,干细胞可发育成类似人体 近日有消息称,huaweiMate60已经停产。作为huawei于2023年8月末发布的最新旗舰机型,huaweiMate60的停产意味着huawei新款旗舰或即将上市,接替Mate60。2023年8月29日,huaweiMate60 Pro、huaweiMate60等 随着量子技术的发展,利用量子特性突破传统测量技术极限的新一代精密测量技术——量子测量开始得到应用。记者从中国计量科学研究院获悉,由该院牵头编制的《量子测量术语》《量子精密 全球首台无细胞蛋白质合成生物反应器、全球首台全高温超导托卡马克装置(洪荒70)、64比特超导量子计算机研发与产业化项目、深海可燃冰探采重载作业机器人系统研制、载人电动复合翼垂直起降飞行 。

本文链接:一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%http://www.sushuapos.com/show-2-5645-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 阿里林俊旸:大模型对很多人来说不够用,打造多模态Agent是关键 | 中国AIGC产业峰会

下一篇: 美图吴欣鸿:国产Sora竞争关键,在创意、工作流和垂直场景 | 中国AIGC产业峰会

热门资讯

推荐资讯

  • 大V被罚没近1亿元

    深圳市中级人民法院网站4月3日发布2025年度金融审判典型案例,其中包括前财经大V、三夫户外原董事易伟被罚没近亿元。 据案情简介,2021年8月14日,北京三夫户外用品股份有限公

  • 红魔11Pro系列遭知名跑分网站除名

    (文/汤普济 编辑/吕栋) 4月8日,观察者网发现红魔最新旗舰机型红魔11 Pro及红魔11 Pro+已被知名基准测试平台3Dmark从2026年4月最佳性能手机榜单中移除。 3DMark榜单截图 3D

  • 腾讯“救了”七匹狼?

    (文/霍东阳 编辑/张广凯) 一家男装公司,在年报里悄悄成了最像基金的上市企业。 4月2日,七匹狼(002029.SZ)发布年度业绩:营业收入30.04亿元,同比下降4.35%;归母净利润3.33亿元,同比

  • 地方中小银行改革化险加速 市场化“补血”需求升温

    21世纪经济报道记者 余纪昕财报季,中小银行的基本面受到市场关注。一方面,3月以来,个别中小银行对二级资本债选择“不赎回”甚至出现利息支付

  • 这两家金融机构整合落子!四年合并进程落幕

    近日,筹划布局四年的两大金融租赁公司吸收合并事宜尘埃落定。《金融时报》 记者注意到,中原银行日前发布公告宣布,其控股的邦银金融租赁股份

  • 停火又悬了,这三点实在太诡异

    给大家报告一个好消息和一个坏消息。好消息是,全世界都看到了,伊朗和美国达成停火协议了,所以全球股市大涨,油价暴跌。坏消息是,停火又悬了,战火

  • 2025商业航天规模破万亿,现存航天相关企业超1.1万家

    2025年我国商业航天核心产业规模增至1.01万亿元,同比增长近7%。 在发射与卫星入轨方面,2025年我国商业航天发射达50次,占发射总数的54%;入轨商业卫星311颗,占入轨卫星总数的84%,商

  • 清明经济新图景:文化传承与春日体验的双向赋能

    清明,既是承载“慎终追远”文化内核的传统节日,也是拥抱春日生机的消费旺季。当祭扫的肃穆与踏青的惬意相遇,清明假期经济正从单一的节日消费,演变为融合文化纪念、户外休闲、生

  • 2026小白理财不迷路!低风险产品大揭秘.

    一、理财小白的困扰与心声在这个物价飞涨的时代,谁不想让自己辛苦攒下的钱 “钱生钱” 呢?可对于理财小白来说,想通过理财实现财富增值,却困难重重。刚工作不久的小李,每月工资除

  • 2025-2026年高端医疗险评测:五款口碑产品推荐评价顶尖

    在高端医疗保障领域,口碑的建立远不止于品牌知名度,它更关乎保障的深度、服务的广度、产品的稳定性以及人群的适配性。一个真正拥有良好口碑的高端医疗险,需要能够从容应对从日

  • 资本密集押注脑机接口赛道

      资本密集押注脑机接口赛道  本报记者 吴奕萱  受政策、技术、市场等多重因素影响,我国脑机接口产业资本活跃度持续提升,近日发布的《中国脑机接口商业化前瞻报告》(以

  • 2025年重点地区快递服务全程平均时限同比缩短2.66小时

      中新经纬4月8日电 据微信号“国家邮政局”8日消息,国家邮政局通告2025年快递服务满意度调查和时限妥投率测试结果。其中显示,2025年全国重点地区快递服务全程平均时限为51

  • 日榜
  • 周榜
  • 月榜