设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

2024-04-13 16:03:42 来源: 量子位

已在抱抱脸开源GK7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不走Transformer寻常路,魔改RNN的国产新架构RWKV,有了新进展:GK7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

提出了两种新的RWKV架构,即Eagle (RWKV-5) 和Finch(RWKV-6)。GK7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

这两种序列模型以RWKV-4架构为基础,然后作了改进。GK7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

新架构的设计进步包括多头矩阵值状态(multi-headed matrix-valued states)和动态递归机制(dynamic recurrence mechanism),这些改进提高了RWKV模型的表达能力,同时保持RNN的推理效率特征。GK7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

同时,新架构引入了一个新的多语言语料库,包含1.12万亿个令牌。GK7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

团队还基于贪婪匹配(greedy matching)开发了一种快速的分词器,以增强RWKV的多语言性。GK7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

目前,4个Eagle模型和2个Finch模型,都已经在抱抱脸上发布了~GK7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

新模型Eagle和Finch

此次更新的RWKV,共包含6个模型,分别是:GK7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

4个Eagle(RWKV-5)模型:分别为0.4B、1.5B、3B、7B参数大小;
2个Finch(RWKV-6)模型:分别是1.6B、3B参数大小。GK7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

Eagle通过使用多头矩阵值状态(而非向量值状态)、重新构造的接受态和额外的门控机制,改进了从RWKV-4中学习到的架构和学习衰减进度。GK7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Finch则通过引入新的数据相关函数,进一步改进架构的表现能力和灵活性,用于时间混合和令牌移位模块,包括参数化线性插值。GK7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外,Finch提出了对低秩自适应函数的新用法,以使可训练的权重矩阵能够以一种上下文相关的方式有效地增强学习到的数据衰减向量。GK7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最后,RWKV新架构引入了一种新的分词器RWKV World Tokenizer,和一个新数据集RWKV World v2,两者均用于提高RWKV模型在多语言和代码数据上的性能。GK7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

其中的新分词器RWKV World Tokenizer包含不常见语言的词汇,并且通过基于Trie的贪婪匹配(greedy matching)进行快速分词。GK7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而新数据集RWKV World v2是一个新的多语言1.12T tokens数据集,取自各种手工选择的公开可用数据源。GK7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

其数据组成中,约70%是英语数据,15%是多语言数据,15%是代码数据。GK7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

基准测试结果如何?

光有架构创新还不够,关键要看模型的实际表现。GK7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

来看看新模型在各大权威评测榜单上的成绩——GK7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

MQAR测试结果

MQAR (Multiple Query Associative Recall)任务是一种用于评估语言模型的任务,旨在测试模型在多次查询情况下的联想记忆能力。GK7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在这类任务中,模型需要通过给定的多个查询来检索相关的信息。GK7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

MQAR任务的目标是衡量模型在多次查询下检索信息的能力,以及其对不同查询的适应性和准确性。GK7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

下图为RWKV-4、Eagle、 Finch和其他非Transformer架构的MQAR任务测试结果。GK7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

可以看出,在MQAR任务的准确度测试中, Finch在多种序列长度测试中的准确度表现都非常稳定,对比RWKV-4、RWKV-5和其他非Transformer架构的模型有显著的性能优势。GK7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

长上下文实验

在PG19测试集上测试了从2048 tokens开始的RWKV-4、Eagle和Finch的loss与序列位置。GK7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

(所有模型均基于上下文长度4096进行预训练)。GK7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

测试结果显示, Eagle在长序列任务上比RWKV-4有了显著的改进,而在上下文长度4096训练的Finch的表现比Eagle更好,可以良好地自动适应到20000以上的上下文长度。GK7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

速度和显存基准测试

速度和内存基准测试中,团队比较了Finch、Mamba和Flash Attention的类Attention内核的速度和显存利用率。GK7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

可以看到,Finch在内存使用方面始终优于Mamba和Flash Attention,而内存使用量分别比Flash Attention和Mamba少40%和17%。GK7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

多语言任务表现

日语

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

西班牙语

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

阿拉伯语

日语-英语

下一步工作

以上研究内容,来自RWKV Foundation发布的最新论文《Eagle and Finch:RWKV with Matrix-Valued States and Dynamic Recurrence》GK7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

论文由RWKV创始人Bo PENG(彭博)和RWKV开源社区成员共同完成。GK7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

共同一作彭博,毕业于香港大学物理系,编程经验20+年,曾在世界最大外汇对冲基金之一Ortus Capital就职,负责高频量化交易。GK7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

还出版过一本关于深度卷积网络的书籍《深度卷积网络·原理与实践》。GK7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

他的主要关注和兴趣方向在软硬件开发方面,在此前的公开访谈中,他曾明确表示AIGC是自己的兴趣所在,尤其是小说生成。GK7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

目前,彭博在Github有2.1k的followers。GK7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

但他的最主要公开身份是一家灯具公司禀临科技的联合创始人,主要是做阳光灯、吸顶灯、便携台灯什么的。GK7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

并且其人应该是一个喵星人资深爱好者,Github、知乎、微信头像,以及灯具公司的官网首页、微博上,都有一只橘猫的身影。GK7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

量子位获悉,RWKV当前的多模态工作包含RWKV Music(音乐方向)和 VisualRWKV(图像方向)。GK7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

接下来,RWKV的重点工作将放在以下几个方向:GK7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • 扩展训练语料库,使其更加多样化(这是改进模型性能的关键事项);
  • 训练和发布更大版本的Finch,如7B和14B参数,并通过MoE降低推理和训练成本,进一步扩展其性能。
  • 对Finch的CUDA实现做进一步优化(包括算法改进),带来速度的提升和更大的并行化。

论文链接:GK7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

https://arxiv.org/pdf/2404.05892.pdfGK7速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本文链接:魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型http://www.sushuapos.com/show-2-4819-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说

下一篇: 印象大模型 × 海量数据,构建赋能千行百业的新质生产力平台

热门资讯

  • 全国首个煤炭行业能源智算中心在山西建成

    3月18日,记者从山西省人民政府获悉,“山西煤炭工业互联网智算平台”日前在山西联通大数据中心建设完成。该平台由中国联通与山西晋云互联科技有限公

  • “桃花癫”是种病,得治

    民俗有言:桃花开,痴子忙。昨日,一大学生患“桃花癫”登上微博热搜,引发热议。该大学生认为周围女生都喜欢自己,并向全校的女生分别告白。不仅如此,由于精

  • 打造平台级AI 引领行业创新

    3月18日,荣耀在国内市场发布全新AI使能的全场景战略,推出平台级AI赋能、以人为中心的跨操作系统体验,以及与全球产业链共振创新的一系列智能设备。荣

  • 电驱气吸播种机亮相农机展,价格亲民助增产

    3月18日,在2024年黑龙江农机产品展示交易会上,一部可智能播种,又可助力增产的电驱气吸播种机引发众人关注。这台高端智能电驱气吸播种机的价格与机械

  • 我研究人员提出 老年人防跌倒健康服务新视角

    3月17日记者获悉,哈尔滨医科大学公共卫生学院副院长、教授田懋一与副研究员叶鹏鹏团队在一项研究中提出,应将预防老年人跌倒与国家基本公共卫生服务

  • 监管AI,欧盟出手,美国掉队?

      监管AI,欧盟出手,美国掉队?  上个世纪,科幻小说家艾萨克・阿西莫夫提出了“机器人三定律”,带来了对“机器人”与“规则”的美好幻想。  如今,伴随着ChatGPT、Sora的爆火,

  • 人工智能重新定义职场技能

    据阿根廷布宜诺斯艾利斯经济新闻网2月19日报道,在人工智能(AI)迅速重新定义就业格局的今天,通常被称为“软”技能的人类技能成为最有韧性、最有价值

  • 科学新发现丨有史以来最大的三维宇宙地图发布

    根据《天体物理学杂志》的最新报道,一个国际天文学家团队利用欧洲空间局的盖亚(Gaia)太空望远镜收集的数据,创建了迄今为止最庞大的三维宇宙地图。该地

  • 我科学家实现最小资源消耗的量子态分辨

    记者3月20日从中国科学技术大学获悉,该校郭光灿院士团队在量子态分辨研究中取得重要进展。研究组在最小资源消耗的量子态分辨问题中首次提出了全局

  • 太空培育类器官或带来疾病新疗法

    自2019年以来,科学家已经在国际空间站上培育出了包括人类大脑、心脏和乳房在内的多个类器官模型。这些类器官通常利用人类干细胞培育而成,在一系列化

  • “AI热潮”有人欢喜又有人忧:新兴市场遭资金外流!

      “AI热潮”有人欢喜又有人忧:新兴市场遭资金外流!  财联社3月20日讯(编辑 黄君芝)巴西亿万富翁、巴西金融公司Banco BTG Pactual SA创始人Andre Esteves表示,人工智能(AI

  • “穿上就走”的通用外骨骼面世

    美国佐治亚理工学院机械工程师开发了一种控制机器人外骨骼的通用方法。无需专门训练、特别校准,对复杂算法进行调整后,用户穿上外骨骼就可以直接行走

推荐资讯

  • 日榜
  • 周榜
  • 月榜