设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说

发布时间: 2024-04-13 16:03:42 来源: 量子位

114倍信息压缩ZCQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

明敏 发自 凹非寺ZCQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

量子位 | 公众号 QbitAIZCQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌大改Transformer,“无限”长度上下文来了。ZCQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

现在,1B大模型上下文长度可扩展到1M(100万token,大约相当于10部小说),并能完成Passkey检索任务。ZCQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

8B大模型在500K上下文长度的书籍摘要任务中,拿下最新SOTAZCQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这就是谷歌最新提出的Infini-attention机制(无限注意力)。ZCQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说

它能让Transformer架构大模型在有限的计算资源里处理无限长的输入,在内存大小上实现114倍压缩比ZCQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

什么概念?ZCQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

就是在内存大小不变的情况下,放进去114倍多的信息。好比一个存放100本书的图书馆,通过新技术能存储11400本书了。ZCQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这项最新成果立马引发学术圈关注,大佬纷纷围观。ZCQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说

加之最近DeepMind也改进了Transformer架构,使其可以动态分配计算资源,以此提高训练效率。ZCQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

有人感慨,基于最近几个新进展,感觉大模型越来越像一个包含高度可替换、商品化组件的软件栈了。ZCQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说

引入压缩记忆

该论文核心提出了一种新机制Infini-attention。ZCQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

它通过将压缩记忆(compressive memory)整合到线性注意力机制中,用来处理无限长上下文。ZCQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

压缩记忆允许模型在处理新输入时保留和重用之前的上下文信息。它通过固定数量的参数来存储和回忆信息,而不是随着输入序列长度的增加而增加参数量,能减少内存占用和计算成本。ZCQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

线性注意力机制不同于传统Transformer中的二次方复杂度注意力机制,它能通过更小的计算开销来检索和更新长期记忆。ZCQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在Infini-attention中,旧的KV状态({KV}s-1)被存储在压缩记忆中,而不是被丢弃。ZCQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

通过将查询与压缩记忆中存储的键值进行匹配,模型就可以检索到相关的值。ZCQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

PE表示位置嵌入,用于给模型提供序列中元素的位置信息。ZCQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说

对比来看Transformer-XL,它只缓存最后一段KV状态,在处理新的序列段时就会丢弃旧的键值对,所以它只能保留最近一段的上下文信息。ZCQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说

对比几种不同Transformer模型可处理上下文的长度和内存占用情况。ZCQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Infini-attention能在内存占用低的情况下,有效处理非常长的序列。ZCQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说

Infini-attention在训练后,分化出了两种不同类型的注意力头,它们协同处理长期和短期上下文信息。ZCQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • 专门化的头(Specialized heads):这些头在训练过程中学习到了特定的功能,它们的门控得分(gating score)接近0或1。这意味着它们要么通过局部注意力机制处理当前的上下文信息,要么从压缩记忆中检索信息。
  • 混合头(Mixer heads):这些头的门控得分接近0.5,它们的作用是将当前的上下文信息和长期记忆内容聚合到单一的输出中。
谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说

研究团队将训练长度增加到100K,在Arxiv-math数据集上进行训练。ZCQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在长下文语言建模任务中,Infini-attention在保持低内存占用的同时,困惑度更低。ZCQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

对比来看,同样情况下Memorizing Transformer存储参数所需的内存是Infini-attention的114倍。ZCQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

消融实验比较了“线性”和“线性+增量”记忆两种模式,结果显示性能相当。ZCQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说

实验结果显示,即使在输入只有5K进行微调的情况下,Infini-Transformer可成功搞定1M长度(100万)的passkey检索任务。ZCQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说

在处理长达500K长度的书籍摘要任务时,Infini-Transformer达到最新SOTA。ZCQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说

Bard成员参与研究

该研究由谷歌团队带来。ZCQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

其中一位作者(Manaal Faruqui)在Bard团队,领导研究Bard的模型质量、指令遵循等问题。ZCQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说

最近,DeepMind的一项工作也关注到了高效处理长序列数据上。他们提出了两个新的RNN模型,在高效处理长序列时还实现了和Transformer模型相当的性能和效率。ZCQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说

感觉到谷歌最近的研究重点之一就是长文本,论文在陆续公布。ZCQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

网友觉得,很难了解哪些是真正开始推行使用的,哪些只是一些研究员心血来潮的成果。ZCQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不过想象一下,如果有一些初创公司专门做内存数据库,但是模型能已经能实现无限内存了,这可真是太有趣了。ZCQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说

论文地址:
https://arxiv.org/abs/2404.07143ZCQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

参考链接:
[1]https://twitter.com/Joby_Fi/status/1778240236201386072ZCQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
[2]https://twitter.com/omarsar0/status/1778480897198612839ZCQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
[3]https://twitter.com/swyx/status/1778553757762252863ZCQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

人体免疫系统中的小过滤器淋巴结有了新妙用。近日,浙江大学药学院、金华研究院教授顾臻团队联合多位科研人员,在国际上首次提出利用冷冻干燥的淋巴结组织提升抗肿瘤药物疗效的方法。相关论文发 据中国科学院武汉植物园消息,我国科研人员在大别山区开展植物多样性科学考察时,发现了天门冬科天门冬属新物种,并将其命名为大别山天门冬。相关研究成果日前发表在国际知名植物分类学期刊《植物 记者3月21日获悉,全球植物科学期刊《分子植物》刊载了中国科学家的最新研究,中国农业科学院作物科学研究所、国家南繁研究院与阿里达摩院(湖畔实验室)联合研发出全流程智慧育种平台,实现了育种数 3月21日是第二十五个“世界睡眠日”,中国睡眠研究会联合慕思集团在北京正式发布《2024情绪与健康睡眠白皮书》(以下简称《白皮书》)。《白皮书》指出,智能床垫运用算法将内在情绪与睡眠质量相关 “啪嗒啪嗒......”一只机器狗在街上迈着规律的步伐,拉着牵引绳的盲人,在它的带领下越过沿路障碍,平稳地行走着,电子导盲犬能否取代传统导盲犬,解决视障人士一犬难求的困境?西工大团队在这方面开展 今年3月23日是第64个世界气象日,主题是“气候行动最前线”。面对愈加频繁的极端天气和全球变暖等气候危机,减缓气候变化已刻不容缓。发展新能源是应对气候变化的重要举措之一,而气象服务对于新 。

本文链接:谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说http://www.sushuapos.com/show-2-4818-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 《SD高达G世纪 火线纵横》公开三版本画面对比及详细规格(火线纵横公开三版本画面对比及详细规格)

下一篇: 魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

热门资讯

  • 新AI系统可提供足球制胜战术

    未来的足球场,人工智能(AI)当“大脑”?《自然·通讯》19日发表一项来自谷歌深度思维的最新成果,研究团队报告了一个名为“TacticAI”的系统,能在足

  • 迄今最大三维宇宙地图发布

    国际天文学家团队绘制了迄今最大的三维宇宙地图,记录了大约130万个活跃类星体在空间和时间上的位置。它将成为探测类星体、暗物质晕和超大质量黑洞

  • 科学家用人工智能设计全新抗体

    据英国《自然》杂志网站19日报道,美国华盛顿大学科学家首次使用生成式人工智能(AI)工具,帮助他们制造全新抗体。研究团队表示,AI设计抗体或能更好靶向一

  • 肺癌蛋白质致命弱点发现

    肺癌是全球死亡率最高的恶性肿瘤。其中非小细胞肺癌(NSCLC)占比达到85%。表皮生长因子受体(EGFR)是NSCLC最常见的驱动突变基因。现在,一个国际科学家团

  • 培生2023年财报业绩超出预期,持续加码数字产品

    21世纪经济报道记者王峰北京报道 近日,全球教育集团培生(NYSE:PSO)公布2023财年财报。2023财年,培生的销售额为36.74亿英镑(下同),同比下降4%,但基

  • 联合国机构报告称2022年全球产生6200万吨电子垃圾

    联合国机构3月20日发布的《全球电子垃圾监测》报告显示,2022年全球范围内共产生6200万吨电子垃圾,其中仅有不到四分之一被回收利用。报告显示,2022年

  • AI辅助诊断实现无创判定甲状腺结节良恶性

    3月21日,记者从陆军军医大学新桥医院获悉,该院普通外科开通甲乳结节AI早筛门诊,利用AI(人工智能)辅助诊断技术,成功为一名甲状腺乳头状癌患者成功实施手

  • 我国成功发射云海二号02组卫星

      我国成功发射云海二号02组卫星  中新网北京3月21日电(马帅莎 曹译 张艳)北京时间2024年3月21日13时27分,我国在酒泉卫星发射中心使用长征二号丁运载火箭/远征三号上面

  • 首批量子测量领域国家标准发布

    随着量子技术的发展,利用量子特性突破传统测量技术极限的新一代精密测量技术——量子测量开始得到应用。记者从中国计量科学研究院获悉,由

  • 1799元!红米狙击一加Ace3V 简直就是来捣乱的

    一加Ace 3V刚发布,就被红米砍了一刀!随着昨天一加Ace 3V的发布,新一轮中端机的内卷终于拉开了序幕。 而且这电话售价居然还不增反降,直接1999起步。 先来回

  • 外媒:夏普拟缩小液晶业务,旗下显示器或停产

      中新经纬3月22日电 据《日本经济新闻》22日报道,夏普正在讨论缩小液晶显示器业务,夏普已将子公司显示器(SDP、位于市)停产纳入视野。显示器业务持续陷入苦战,成为夏普在202

  • 不用贴膜了!huaweiMate 70系列搭载“玄武镀膜”:防划、防反光

    3月25日消息,去年huawei在Mate 60系列上首发了玄武机身架构,采用一体化金属机身,搭配上超耐用锦纤材质,使整机的抗挤压能力提高10倍,使用更放心。“玄武”是

推荐资讯

  • 日榜
  • 周榜
  • 月榜