设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

百万token上下文窗口也杀不死向量数据库?CPU笑了

2024-03-26 17:06:18 来源: 量子位

做到“快好省”才是关键cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“Claude 3、Gemini 1.5,是要把RAG(检索增强生成)给搞死了吗?”cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

百万token上下文窗口也杀不死向量数据库?CPU笑了

随着新晋大语言模型们的上下文窗口(Context Window)变得越发得长,业界人士针对“RAG终将消亡”观点的讨论也是愈演愈烈。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

之所以如此,是因为它们二者都是为了解决大模型的幻觉问题(即那种一本正经地胡说八道),可以说是属于两种不同顶尖技术流派之间的对峙。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一方面,以Claude 3、Gemini 1.5为代表的流派,陆续支持200K和100万token的上下文窗口,用大力出奇迹的方式让大模型能够精准检索到关键信息来提供准确答案。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

另一方面,RAG则是一种外挂知识库,无缝集成外部资源,为大语言模型提供了准确和最新的知识,以此来提高生成内容的质量。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

诚然有很多人在体验过超长上下文窗口大模型后,觉得这种方式已经让AI在回答的准确性上做到了突破,无需再用RAG:cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

百万token上下文窗口也杀不死向量数据库?CPU笑了

而且从Claude、Gemini等玩家在测评榜单的数据来看,在回答准确性上的成绩也是屡创新高。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

但事实真是如此吗?不见得。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

因为在此期间,与“RAG要消亡了”背道而驰的声音也是越发坚定:cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

百万token上下文窗口也杀不死向量数据库?CPU笑了

从各种评价和讨论来看,这派的观点可以概括为——你(长上下文窗口)强任你强,但缺点也是蛮明显的。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

有网友便列举了长上下文窗口的四大通病(四个V):cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • Velocity(速度):基于Transformer的大型模型,在检索长上下文时要想达到亚秒级的速度响应仍然具有挑战性。
  • Value(价值):长上下文窗口毕竟属于大力出奇迹,但它高支出的特点对于日常应用来说,在成本上是不切实际的。
  • Volume(体量):即使上下文窗口越发得长,但和全网庞大的非结构化数据相比就是小巫见大巫;尤其是企业级动辄GB、TB这种体量,还涉及众多私有数据的情形。
  • Variety(多样性):现实世界的用例不仅涉及非结构化数据,还包括各种结构化数据,它们可能不容易被LLM捕获用来训练;而且企业场景中往往知识是需要实时变化的。

相反,RAG因为得益于其关键结构之一的向量数据库,反倒是可以较好地规避上述的“4V”缺陷。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

向量数据库让大模型能够快速有效地检索和处理大量的向量数据,从而增强了模型的整体性能和应用范围。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一言蔽之,关键看能不能“快好省”地用起来cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

百万token上下文窗口也杀不死向量数据库?CPU笑了cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

△图源:由DALL·E 3生成cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

那么以RAG、向量数据库为代表的这一派技术,在现实场景中到底用得如何呢?cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

百万token上下文窗口也杀不死向量数据库?CPU笑了

为了解答这个问题,我们找到了刚刚发布相关创新成果的腾讯云,了解了一下向量数据库以全新构建模式,作为AI知识库能为大模型等带来哪些收益?cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

向量数据库,已成大模型时代数据中枢

正如我们刚才提到的,RAG的重要组成部分就是外挂的专业知识库,因此这个知识库中需得涵盖能够精准回答问题所需要的专业知识和规则。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而要构建这个外挂知识库,常见的方法包括向量数据库、知识图谱,甚至也可以直接把ElasticSearch数据接入。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

但由于向量数据库具备对高维向量的检索能力,能够跟大模型很好地匹配,效果也是较好的那个,所以成为了目前主流的形式。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

百万token上下文窗口也杀不死向量数据库?CPU笑了cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

△各类数据转化为向量后存入向量数据库cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

向量数据库可以对向量化后的数据进行高效的存储、处理与管理。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

如上图展示的那样,数据向量化过程利用了诸如词向量模型和卷积神经网络等人工智能技术。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

通过Embedding过程,这些技术能够将文本、图像、音视频等多种形式的数据转换成向量形式,并将其存储在向量数据库中。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

至于向量数据库的查询功能,则是通过计算向量间的相似度来实现的。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而腾讯云的创新成果,就是腾讯云向量数据库(Tencent Cloud VectorDB),它能为多维向量数据提供高效的存储、检索和分析能力。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

其主要特点包括:cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • Embedding功能:数据写入/检索自动向量化,无需关注向量生成过程,这意味着使用门槛被狠狠地打了下去。
  • 高性能:单索引支持千亿级向量数据规模,可支持百万级 QPS 及毫秒级查询延迟。
  • 低成本:只需简单操作就可以创建向量数据库实例,全流程平台托管,不需要额外的开销成本。
  • 简单易用:不仅向量检索能力丰富,而且通过API就能快速操作和开发。

从这些特性不难看出,它恰好补齐了我们刚才提到的上下文窗口方式的一些短板。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

也正是凭借这些优势,腾讯云向量数据库能够和大语言模型无缝对接:cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

百万token上下文窗口也杀不死向量数据库?CPU笑了

用户可以将私有数据经过文本处理和向量化后,存储至腾讯云向量数据库,从而创建一个定制化的外部知识库。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在后续的查询任务中,这个知识库也能为大模型提供必要的提示,从而辅助AGI和AIGC等应用产生更精确的输出。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

由此可见,站在大模型时代之下,向量数据库已然不仅仅是一种技术工具,更是连接数据与AI的桥梁,是大模型时代的数据中枢,是整个AI平台不可或缺的一部分。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

借助这一项项突破,腾讯云VectorDB不仅支持多种索引类型和相似度计算方法,还具有单索引支持千亿级向量规模、百万级每秒查询率(Queries-per-second,QPS)及毫秒级查询时延等优势。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不过这样的向量数据库又是如何搭建起来的呢?cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

腾讯云还有一个杀手锏——cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

与英特尔合作,以至强CPU平台为基础,通过软、硬件两方面的并行优化,为向量数据库提供显著的性能加速。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

CPU,向量数据库的好搭档

向量数据库搭配CPU,其实不只是腾讯云一家的选择,而是整个行业现阶段的主流共识:cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

只有面临海量高并发需求时,使用GPU查询向量数据库才更划算。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

究其原因,还要从向量数据库和CPU各自的特点,以及实际业务流程分开来看。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

首先从向量数据库的角度分析,其原理上属于密集型计算负载,需要大量访问内存中加载的向量。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

向量数据库与传统数据库最大的区别在于不是精确匹配,而是依靠各种相似度度量方法来找到与给定查询最相近的向量,这就涉及大量的相似度计算,如点积、欧式距离、余弦相似度等。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

如此一来,除了运算速度之外,内存访问速度也很容易成为向量数据库运行中的瓶颈所在。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

百万token上下文窗口也杀不死向量数据库?CPU笑了

带着这个背景来看,CPU不但性能够用,还占据了内存访问快的优势。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

对于中等或更少并发请求来说,虽然GPU单论运算速度更快,但CPU较低的内存访问时间足以抵消这个差距。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

接下来,再从CPU的角度来看,它是如何来满足向量数据库运算性能需求的。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

前面提到向量数据库属于密集型计算负载,谈到CPU上相关的加速技术,就不得不提我们的老朋友——从2017年第一代至强® 可扩展处理器开始就内置在这个CPU产品家族中的英特尔® AVX-512指令集。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这是一种单指令多数据(Single Instruction Multiple Data,SIMD)指令集,拥有512位的寄存器宽度,可以在一次操作中处理高维向量的所有数据。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

百万token上下文窗口也杀不死向量数据库?CPU笑了cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

△英特尔® SSE、英特尔® AVX2和英特尔® AVX-512之间的寄存器大小和计算效率的差异说明cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

另一项可为向量数据库带来显著性能提升的是英特尔® AMX (高级矩阵扩展)加速引擎,它是从第四代至强® 可扩展处理器开始内置的加速技术,在刚刚发布的第五代至强® 可扩展处理器上也是加速器的“C位”,是大家熟悉的CPU用来加速AI应用,尤其是推理应用的核心技术。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

AMX引入的用于矩阵处理的新框架,也能高效地处理向量数据库查询所需的矩阵乘法运算,并在单词运算中处理更大矩阵。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

百万token上下文窗口也杀不死向量数据库?CPU笑了cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

△英特尔® AMX 架构由2D 寄存器文件 (TILE) 和 TMUL 组成cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在这基础上,英特尔还与腾讯云合作,针对腾讯云VectorDB常用的计算库做了专门的优化方案。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

例如针对流行的FAISS相似度搜索(Facebook AI Similarity Search ),借助英特尔® AVX-512为其中不同的索引提出不同的优化方案,包括面向IVF- FLAT算法的ReadOnce(单次读取)和Discretization(离散化)两种优化思路,来执行用英特尔® AVX-512加速IVF- PQFastScan算法和IVF-SQ索引的优化方案。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

针对另一种流行代码库HNSWlib,使用英特尔® AVX-512不仅能加速向量检索性能,同时还能使召回率保持平稳。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

实地测试表明,在第三代至强® 可扩展处理器平台上启用英特尔® AVX-512优化后,相比没有启用优化时,使用IVF-PQFastScan算法执行向量检索时的QPS性能提升了约一倍;而把计算平台升级到目前最新的第五代至强® 可扩展处理器平台后,性能更是会提升2.3倍!cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

百万token上下文窗口也杀不死向量数据库?CPU笑了cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

△英特尔软硬件产品与技术带来的性能提升(归一化)cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

还有,在使用第五代至强® 可扩展处理器的算力平台上,如果使用英特尔® AMX 加速数据格式为 INT8的测试场景,相比使用英特尔® AVX-512加速数据格式为 FP32的测试场景,性能提升可达约5.8倍。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

百万token上下文窗口也杀不死向量数据库?CPU笑了cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

△英特尔® AMX 优化加速暴力检索的吞吐性能(归一化)cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

AI走向平台化,模型不是唯一主角

了解过腾讯云与英特尔的具体实践和优化成果,再来看我们最开始的讨论,答案也就明晰了。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

即使AI模型能力不断加速进化,向量数据库以及整个RAG技术也没到消亡的时候。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

究其原因,便是单纯的模型能力本身已经难以满足日益深入的应用落地需求,AI在落地时必须会走向复杂系统,或者说平台化。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

向量数据库承载着外部知识,会在这个AI系统或平台时发挥自己的价值,但也只是其中的组件之一。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

站在这个层面上看,AI系统或平台的综合能力已不只单看模型自身,还要与整个系统中其他组件相互配合。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

AI系统或平台的性能效率也需要从整体考量,不仅仅取决于模型的准确性和速度。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在腾讯云VectorDB的业务实践中,最终能发现CPU是与向量数据库业务很契合,就综合性能、可扩展性、功耗、成本等因素而言是很登对的搭档,这就让CPU在直接加速一些AI应用之余,也能成为承载AI系统或平台中更多组件的基础。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这个故事的另一个主角英特尔,也在顺应这一趋势不断深入优化,既在微观上用一颗颗芯片给大模型加速,又在宏观上用CPU相关技术给整个AI系统或平台的落地、应用及实践加速。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

更多CPU支持向量数据库的解决方案内容,请点击“阅读原文”获取。cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

参考链接:
[1]https://zilliz.com/blog/will-retrieval-augmented-generation-RAG-be-killed-by-long-context-LLMscRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
[2]https://www.reddit.com/r/hypeurls/comments/1b9dfo5/gemini_and_claudes_are_killing_rag/cRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
[3]https://cloud.tencent.com/product/vdbcRI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本文链接:百万token上下文窗口也杀不死向量数据库?CPU笑了http://www.sushuapos.com/show-2-4212-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 澜舟坚持四两拨千斤:ToB场景落地,10B参数大模型足矣

下一篇: 骁龙最强AI芯能力下放:小旗舰8s发布,端侧跑10B模型,小米首发

热门资讯

  • 淋巴结冻干“锁鲜”技术或可用于肿瘤治疗

    人体免疫系统中的小过滤器淋巴结有了新妙用。近日,浙江大学药学院、金华研究院教授顾臻团队联合多位科研人员,在国际上首次提出利用冷冻干燥的淋巴结

  • 多功能金纳米花颗粒 可促进感染性组织修复

    3月17日,记者从海南大学获悉,该校化学化工学院副教授李萌婷与相关研究团队合作,合成了多功能复合金纳米花颗粒。该颗粒配合温和光热、光动力、药物控

  • 人类祖先200万年前开始捕鱼

    美国《发现》杂志网站2月7日刊登题为《200万年前,我们的人类祖先开始从水里捞鱼》的文章,作者是科迪·科蒂尔,内容编译如下:捕鱼可能是一种占许

  • 阿尔茨海默病早期症状可能表现在视力上

    据阿根廷布宜诺斯艾利斯经济新闻网报道,一项国际研究发现,阿尔茨海默病的早期症状可能表现在视力上。研究显示,即便眼科检查结果正常,但阅读、估计距离

  • 专家:警惕常见睡眠认知误区

    3月21日是世界睡眠日,中国主题为“健康睡眠 人人共享”。近日发布的《2023年中国居民睡眠白皮书》显示,我国居民平均睡眠时长6.75小时,平均在零点后入

  • 省电“神器”是“黑科技”还是智商税?

    3月15日,我国一些地区停止居民集中供热。初春时节,乍暖还寒。停暖初期昼夜温差较大,老人、儿童等身体较弱者,可能需要使用电暖气、电热毯等取暖设备,这

  • AI辅助诊断实现无创判定甲状腺结节良恶性

    3月21日,记者从陆军军医大学新桥医院获悉,该院普通外科开通甲乳结节AI早筛门诊,利用AI(人工智能)辅助诊断技术,成功为一名甲状腺乳头状癌患者成功实施手

  • 企业联合遥感数据平台 加速遥感应用迈向普惠时代

    记者3月21日获悉,商汤科技与遥感数据平台吉林一号网、四维地球、星图地球等展开合作,此举标志着“SenseEarth智能遥感云”平台数据源全面升级,将为行

  • 全球首列氢能源市域列车完成满载运行试验

    3月21日上午,全球首列氢能源市域列车在中车长客股份公司(以下简称“中车长客”)试验线上进行了时速160公里满载运行试验。当日试验过程中,车以160公里/

  • 外媒:夏普拟缩小液晶业务,旗下显示器或停产

      中新经纬3月22日电 据《日本经济新闻》22日报道,夏普正在讨论缩小液晶显示器业务,夏普已将子公司显示器(SDP、位于市)停产纳入视野。显示器业务持续陷入苦战,成为夏普在202

  • 中国气象局发布大地磁暴预警,可能会看到极光

    记者从中国气象局了解到,3月24日、25日和26日三天,将可能出现地磁活动,其中3月25日可能发生中等以上地磁暴甚至大地磁暴,预计地磁活动将持续到26日。在

  • 吸烟会增加腹部脂肪

    科学杂志《成瘾》3月21日发表的一项新研究显示,刚开始吸烟和终生吸烟都可能增加腹部脂肪,特别是内脏脂肪。内脏脂肪与心脏病、糖尿病、中风和痴呆症

推荐资讯

  • 日榜
  • 周榜
  • 月榜