设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

58行代码把Llama 3扩展到100万上下文,任何微调版都适用

2024-05-08 09:13:13 来源: 量子位

大模型进入组装时代1b5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

堂堂开源之王Llama 3,原版上下文窗口居然只有……8k,让到嘴边的一句“真香”又咽回去了。1b5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在32k起步,100k寻常的今天,这是故意要给开源社区留做贡献的空间吗?1b5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源社区当然不会放过这个机会:1b5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

现在只需58行代码,任何Llama 3 70b的微调版本都能自动扩展到1048k(一百万)上下文。1b5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

背后是一个LoRA,从扩展好上下文的Llama 3 70B Instruct微调版本中提取出来,文件只有800mb1b5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

接下来使用Mergekit,就可以与其他同架构模型一起运行或直接合并到模型中。1b5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

所使用的1048k上下文微调版本,刚刚在流行的大海捞针测试中达到全绿(100%准确率)的成绩。1b5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不得不说,开源的进步速度是指数级的。1b5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

1048k上下文LoRA怎么炼成的

首先1048k上下文版Llama 3微调模型来自Gradient AI,一个企业AI解决方案初创公司。1b5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而对应的LoRA来自开发者Eric Hartford,通过比较微调模型与原版的差异,提取出参数的变化。1b5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

他先制作了524k上下文版,随后又更新了1048k版本。1b5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

首先,Gradient团队先在原版Llama 3 70B Instruct的基础上继续训练,得到Llama-3-70B-Instruct-Gradient-1048k。1b5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

具体方法如下:1b5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • 调整位置编码:用NTK-aware插值初始化RoPE theta的最佳调度,进行优化,防止扩展长度后丢失高频信息
  • 渐进式训练:使用UC伯克利Pieter Abbeel团队提出的Blockwise RingAttention方法扩展模型的上下文长度

值得注意的是,团队通过自定义网络拓扑在Ring Attention之上分层并行化,更好地利用大型GPU集群来应对设备之间传递许多KV blocks带来的网络瓶颈。1b5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最终使模型的训练速度提高了33倍。1b5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

长文本检索性能评估中,只在最难的版本中,当“针”藏在文本中间部分时容易出错。1b5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

有了扩展好上下文的微调模型之后,使用开源工具Mergekit比较微调模型和基础模型,提取参数的差异成为LoRA。1b5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

同样使用Mergekit,就可以把提取好的LoRA合并到其他同架构模型中了。1b5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

合并代码也由Eric Hartford开源在GitHub上,只有58行。1b5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

目前尚不清楚这种LoRA合并是否适用于在中文上微调的Llama 3。1b5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不过可以看到,中文开发者社区已经关注到了这一进展。1b5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

524k版本LoRA:
https://huggingface.co/cognitivecomputations/Llama-3-70B-Gradient-524k-adapter1b5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

1048k版本LoRA:
https://huggingface.co/cognitivecomputations/Llama-3-70B-Gradient-1048k-adapter1b5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

合并代码:
https://gist.github.com/ehartford/731e3f7079db234fa1b79a01e09859ac1b5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

参考链接:
[1]https://twitter.com/erhartford/status/17868878842111387841b5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本文链接:58行代码把Llama 3扩展到100万上下文,任何微调版都适用http://www.sushuapos.com/show-2-5684-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 上海期智研究院全球招人才!人工智能/信息安全/量子智能方向的来

下一篇: 《嬛嬛朕emo啦》但马斯克!阿里这项技术开放试玩

热门资讯

  • 全国首个模拟验证机场开工

    记者日前获悉,位于四川成都未来科技城应用性科创区的民航科技创新示范区(B区)航站楼项目,近日取得施工许可证。这也意味着全国首个模拟验证机场开工。

  • 研究发现神经系统疾病成人类健康主要“杀手”

    据法新社巴黎3月15日报道,15日发布的一项新的重要分析称,影响神经系统的疾病——如中风、偏头痛和痴呆症——已经超过心脏病,成

  • 人工智能探究癌症发展机理

    据英国《金融时报》网站3月13日报道,科学家们已经在利用人工智能(AI)阐释人体所谓的“黑暗基因组”,并开发一种可能很强大的癌症检测、监测和治疗新

  • 人工智能医疗或将破解人体秘密

    美国《新闻周刊》网站2月4日刊登题为《人工智能可能会在数十年内解开人体的秘密》的文章,作者是亚历克斯·菲利普斯,内容编译如下:一位医生(同

  • 锻造能“听”清眼疾的高精设备

    眼眸深邃似海、璨如星河,中国医学科学院生物医学工程研究所眼科诊疗技术研发团队(以下简称“团队”)正是眼眸“侦探”。该团队不久前被授予“国家卓越

  • 联想与英伟达推出全新混合AI解决方案

    在近日举行的全球AI盛会GTC(GPU Technology Conference)2024上,联想集团与NVIDIA(英伟达)宣布合作推出全新混合人工智能解决方案,帮助企业和云提供商获得

  • AI+智能家居赋能健康睡眠

    3月21日是第二十五个“世界睡眠日”,中国睡眠研究会联合慕思集团在北京正式发布《2024情绪与健康睡眠白皮书》(以下简称《白皮书》)。《白皮书》指出,

  • CSHIA与创米数联联合发布《2024智能门创新趋势报告》

    2024年03月19日,以“初心如磐•向新出发”为主题的2024智能家居UP峰会CSHIA智能家居开年盛典在杭州成功举行。大会现场,由全国专业标准化技术委

  • 量子互联网:小荷已露尖尖角

    近日,美国纽约州立大学石溪分校科学家菲格罗阿等人在一篇发表于《自然·量子信息》上的论文中称,他们通过把两个独立的光子存储在铷气里,首次在

  • 千元机皇 小8Gen3+1.5K直屏+5500mAh大电池 有点香啊!

    回望一加去年的整体节奏,如果要用一个词来总结其数字系列和Ace系列的概况,那就是“卷”!从外观质感、内存性能到整机体验,与友商的相互竞争中,一加表现的都

  • 科技助力市场驱动 无人车产品赋能环卫物流等行业

    随着无人驾驶技术的快速发展,无人车在城市配送、环卫清扫、安防巡逻等应用场景中已得到较好示范应用。3月22日,南京溧水经济开发区管委会与南京易咖

  • 俄罗斯成功发射“联盟MS-25”载人飞船

    俄罗斯国家航天集团23日发布消息说,俄当天成功发射了“联盟MS-25”载人飞船。消息说,莫斯科时间23日15时36分(北京时间20时36分),“联盟MS-25”载人飞船

推荐资讯

  • 日榜
  • 周榜
  • 月榜