设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

解析梁文锋署名DeepSeek新论文:让记忆和计算分开

发布时间: 2026-01-14 16:42:50 来源: 新京报

根据研究人员测试,模型在处理超过5轮的多步骤逻辑推理任务时,会出现关键信息丢失的现象。在企业客服场景,模型无法长期记住用户的个性化需求;在医疗问诊场景,患者此前提及的病史、用药禁忌可能被忽略;在代码生成场景,跨文件的函数调用逻辑易出现混乱。9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

1月12日晚间,DeepSeek发布梁文锋署名的新论文,主题为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(直译为基于可扩展查找的条件记忆:大语言模型稀疏性的新维度),这也是2026开年至今,DeepSeek团队的第二篇重磅论文。9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此前,在1月1日发布的论文中,DeepSeek提出一种名为“mHC”(直译为“流形约束超连接”)的框架,可以有效解决大模型训练中的稳定性问题。而在本次发布的论文中,DeepSeek联合北京大学提出了“条件记忆”这一概念,直指当前大语言模型基础架构Transformer在知识检索方面存在的低效和算力消耗问题。9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在这篇论文里,DeepSeek通过创新的Engram(直译为:记忆痕迹)架构为模型规模化扩展提供了新的技术路径,若以简单的比喻来理解,就是DeepSeek设计了一种新架构,将大模型的“条件记忆”和“计算”分开,最终达到了降低错误、节省算力的目的。9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

预印本网站上DeepSeek的论文页面截图,红框为梁文锋名字。9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型“痛点”:简单问题需要复杂推理,容易“遗忘”9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

许多AI大模型用户均曾在使用过程中发现过一个现象:AI会偶尔“忘记”自己曾经说过的话。对于这一问题,有AI聊天重度用户曾对记者表示,可以通过再次“提醒”的方式来让AI重复记起,ChatGPT等应用也对此进行过设置,让用户可以保存一些较为重要的信息到“长期记忆”中。9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

然而,这一切只能“治标”不能“治本”。究其原因,根据美国约翰斯·霍普金斯大学和中国人民大学的研究团队2025年3月发布的论文《大型语言模型不具备类人工作记忆》(LLMs Do Not Have Human-Like Working Memory),大语言模型所依赖的“上下文窗口”与工作记忆存在本质区别。9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

根据研究人员测试,模型在处理超过5轮的多步骤逻辑推理任务时,会出现关键信息丢失的现象,在长文本生成场景下,前文设定的人物关系、情节线索极易发生偏差。9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在实际应用中,这一缺陷有可能被无限放大。如在企业客服场景,模型无法长期记住用户的个性化需求;在医疗问诊场景,患者此前提及的病史、用药禁忌可能被忽略;在代码生成场景,跨文件的函数调用逻辑易出现混乱。可以说,记忆短板已成为大模型从 “通用工具” 迈向 “垂直领域专用系统” 的最大障碍。9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

究其原因,在多轮对话中,早期输入的关键信息会随着对话轮次增加而逐渐衰减,最终被新信息覆盖。这种 “答后忘前”的现象,本质是模型的短时记忆无法有效转化为长期可用的知识。另一方面,密集型注意力计算模式下,记忆存储与逻辑推理共享算力资源,二者存在天然的资源竞争关系 —— 模型难以同时兼顾 “记住更多信息” 与 “精准完成推理”。9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这一背景下,DeepSeek则保持了一贯的“省钱”作风,看到了这之中存在的算力消耗问题。梁文锋署名的新论文表示,语言建模本质上包含两类子任务:一类是组合式推理,需要依赖深层、动态计算完成;另一类是知识检索,面向命名实体等相对静态的内容,理论上可以通过简单查找更高效地处理。然而,现有Transformer架构缺乏原生的查找组件,遇到这类静态信息时往往仍要反复调用深层网络进行重建,从而加剧算力浪费并推高推理成本。9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

DeepSeek在论文中指出,当前主流模型在内部运行方式上仍存在明显低效。大量固定知识和常见语言模式并不需要复杂推理,但模型在推理时往往仍要通过多层计算重新构建相关信息,导致算力被大量消耗在记忆相关操作上。在长文本和知识密集型任务中,这一问题更为突出,重复静态信息的重建会增加额外的推理开销并拉长推理链路。9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

首创MoE+Engram双稀疏轴架构,实现“推理+检索”分工协作9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

那么,如何解决上述问题呢?9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

根据DeepSeek的论文,研究人员首次将条件记忆(Conditional Memory)作为混合专家模型(MoE)条件计算的互补维度,提出计算与记忆双稀疏轴的设计思路,这也是此次研究的核心创新点。9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

所谓“条件记忆”,是指模型能够基于输入中的局部上下文模式,以常数时间从大规模参数化记忆中检索并融合静态知识表示,从而避免在推理过程中反复通过深层计算重建高频、模板化信息,类似于人类在面对熟悉知识时直接调用既有记忆,而非重新推导。9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Engram架构示意图 来源:DeepSeek论文截图9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

具体而言,条件记忆通过Engram模块(记忆痕迹)实现静态知识存储与动态计算的分离,达成静态模式的常数时间O(1)查找。其核心逻辑是为语言建模的两类子任务进行分工:MoE专注处理需要深层思考的组合式推理任务,Engram则依托条件记忆机制负责静态知识的快速检索,从架构上优化了算力资源分配,改变了传统模型用计算模拟记忆的低效模式。当大约20%至25%的稀疏参数预算分配给Engram,剩余部分留给MoE时(75% -80%),模型性能达到最佳。9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这种稀疏性设计带来两大优势:一是大幅降低算力消耗,静默状态的记忆资源不占用计算资源,提升模型运行效率;二是拓展记忆容量,稀疏存储模式可支持更大规模的知识存入,突破传统注意力窗口的物理限制。9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

论文给出了这一新方案在准确性上所得到的提升:在长上下文检索方面,研究人员采用业内公认的两个长上下文评测基准。实验结果显示,在32k上下文长度下,Engram-27B 在多项 Needle-in-a-Haystack(NIAH)任务中显著优于MoE基线模型,Multi-Query NIAH的准确率从 84.2%提升至97.0%,Variable Tracking从77.0%提升至89.0%。9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

目前,该研究的代码已开源,DeepSeek团队在论文最后表示,“我们认为条件记忆函数是下一代稀疏模型中不可或缺的建模基元。”这一表述的背后,是行业对大模型技术演进方向的共识——当参数竞赛进入瓶颈期,稀疏性设计将成为提升模型效率与能力的核心路径,而条件记忆或许可以成为稀疏模型在记忆领域的关键突破。9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在业界猜测DeepSeek下一代模型将于春节前发布的背景下,这篇论文的出现颇具风向标意义,论文提出的技术范式也为大模型的底层架构创新提供了新的思路。9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

新京报贝壳财经记者 罗亦丹 实习生 郭雯华9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

根据研究人员测试,模型在处理超过5轮的多步骤逻辑推理任务时,会出现关键信息丢失的现象。在企业客服场景,模型无法长期记住用户的个性化需求;在医疗问诊场景,患者此前提及的病史、用药禁忌可能被忽略;在代码生成场景,跨文件的函数调用逻辑易出现混乱。9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

1月12日晚间,DeepSeek发布梁文锋署名的新论文,主题为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(直译为基于可扩展查找的条件记忆:大语言模型稀疏性的新维度),这也是2026开年至今,DeepSeek团队的第二篇重磅论文。9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此前,在1月1日发布的论文中,DeepSeek提出一种名为“mHC”(直译为“流形约束超连接”)的框架,可以有效解决大模型训练中的稳定性问题。而在本次发布的论文中,DeepSeek联合北京大学提出了“条件记忆”这一概念,直指当前大语言模型基础架构Transformer在知识检索方面存在的低效和算力消耗问题。9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在这篇论文里,DeepSeek通过创新的Engram(直译为:记忆痕迹)架构为模型规模化扩展提供了新的技术路径,若以简单的比喻来理解,就是DeepSeek设计了一种新架构,将大模型的“条件记忆”和“计算”分开,最终达到了降低错误、节省算力的目的。9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

预印本网站上DeepSeek的论文页面截图,红框为梁文锋名字。9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型“痛点”:简单问题需要复杂推理,容易“遗忘”9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

许多AI大模型用户均曾在使用过程中发现过一个现象:AI会偶尔“忘记”自己曾经说过的话。对于这一问题,有AI聊天重度用户曾对记者表示,可以通过再次“提醒”的方式来让AI重复记起,ChatGPT等应用也对此进行过设置,让用户可以保存一些较为重要的信息到“长期记忆”中。9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

然而,这一切只能“治标”不能“治本”。究其原因,根据美国约翰斯·霍普金斯大学和中国人民大学的研究团队2025年3月发布的论文《大型语言模型不具备类人工作记忆》(LLMs Do Not Have Human-Like Working Memory),大语言模型所依赖的“上下文窗口”与工作记忆存在本质区别。9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

根据研究人员测试,模型在处理超过5轮的多步骤逻辑推理任务时,会出现关键信息丢失的现象,在长文本生成场景下,前文设定的人物关系、情节线索极易发生偏差。9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在实际应用中,这一缺陷有可能被无限放大。如在企业客服场景,模型无法长期记住用户的个性化需求;在医疗问诊场景,患者此前提及的病史、用药禁忌可能被忽略;在代码生成场景,跨文件的函数调用逻辑易出现混乱。可以说,记忆短板已成为大模型从 “通用工具” 迈向 “垂直领域专用系统” 的最大障碍。9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

究其原因,在多轮对话中,早期输入的关键信息会随着对话轮次增加而逐渐衰减,最终被新信息覆盖。这种 “答后忘前”的现象,本质是模型的短时记忆无法有效转化为长期可用的知识。另一方面,密集型注意力计算模式下,记忆存储与逻辑推理共享算力资源,二者存在天然的资源竞争关系 —— 模型难以同时兼顾 “记住更多信息” 与 “精准完成推理”。9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这一背景下,DeepSeek则保持了一贯的“省钱”作风,看到了这之中存在的算力消耗问题。梁文锋署名的新论文表示,语言建模本质上包含两类子任务:一类是组合式推理,需要依赖深层、动态计算完成;另一类是知识检索,面向命名实体等相对静态的内容,理论上可以通过简单查找更高效地处理。然而,现有Transformer架构缺乏原生的查找组件,遇到这类静态信息时往往仍要反复调用深层网络进行重建,从而加剧算力浪费并推高推理成本。9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

DeepSeek在论文中指出,当前主流模型在内部运行方式上仍存在明显低效。大量固定知识和常见语言模式并不需要复杂推理,但模型在推理时往往仍要通过多层计算重新构建相关信息,导致算力被大量消耗在记忆相关操作上。在长文本和知识密集型任务中,这一问题更为突出,重复静态信息的重建会增加额外的推理开销并拉长推理链路。9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

首创MoE+Engram双稀疏轴架构,实现“推理+检索”分工协作9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

那么,如何解决上述问题呢?9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

根据DeepSeek的论文,研究人员首次将条件记忆(Conditional Memory)作为混合专家模型(MoE)条件计算的互补维度,提出计算与记忆双稀疏轴的设计思路,这也是此次研究的核心创新点。9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

所谓“条件记忆”,是指模型能够基于输入中的局部上下文模式,以常数时间从大规模参数化记忆中检索并融合静态知识表示,从而避免在推理过程中反复通过深层计算重建高频、模板化信息,类似于人类在面对熟悉知识时直接调用既有记忆,而非重新推导。9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Engram架构示意图 来源:DeepSeek论文截图9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

具体而言,条件记忆通过Engram模块(记忆痕迹)实现静态知识存储与动态计算的分离,达成静态模式的常数时间O(1)查找。其核心逻辑是为语言建模的两类子任务进行分工:MoE专注处理需要深层思考的组合式推理任务,Engram则依托条件记忆机制负责静态知识的快速检索,从架构上优化了算力资源分配,改变了传统模型用计算模拟记忆的低效模式。当大约20%至25%的稀疏参数预算分配给Engram,剩余部分留给MoE时(75% -80%),模型性能达到最佳。9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这种稀疏性设计带来两大优势:一是大幅降低算力消耗,静默状态的记忆资源不占用计算资源,提升模型运行效率;二是拓展记忆容量,稀疏存储模式可支持更大规模的知识存入,突破传统注意力窗口的物理限制。9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

论文给出了这一新方案在准确性上所得到的提升:在长上下文检索方面,研究人员采用业内公认的两个长上下文评测基准。实验结果显示,在32k上下文长度下,Engram-27B 在多项 Needle-in-a-Haystack(NIAH)任务中显著优于MoE基线模型,Multi-Query NIAH的准确率从 84.2%提升至97.0%,Variable Tracking从77.0%提升至89.0%。9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

目前,该研究的代码已开源,DeepSeek团队在论文最后表示,“我们认为条件记忆函数是下一代稀疏模型中不可或缺的建模基元。”这一表述的背后,是行业对大模型技术演进方向的共识——当参数竞赛进入瓶颈期,稀疏性设计将成为提升模型效率与能力的核心路径,而条件记忆或许可以成为稀疏模型在记忆领域的关键突破。9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在业界猜测DeepSeek下一代模型将于春节前发布的背景下,这篇论文的出现颇具风向标意义,论文提出的技术范式也为大模型的底层架构创新提供了新的思路。9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

新京报贝壳财经记者 罗亦丹 实习生 郭雯华9xw速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

中国科学院深圳先进技术研究院15日发布消息称,该院科研团队研发了一种具有靶向送药功能的磁驱软体机器人,该机器人能够根据器官内部环境的特点选择合适的运动模式,实现靶向送药的同时还可以控制 据阿根廷布宜诺斯艾利斯经济新闻网2月19日报道,在人工智能(AI)迅速重新定义就业格局的今天,通常被称为“软”技能的人类技能成为最有韧性、最有价值的技能。这是阿尼什·拉曼和玛丽亚&mi 记者3月20日从中国科学技术大学获悉,该校郭光灿院士团队在量子态分辨研究中取得重要进展。研究组在最小资源消耗的量子态分辨问题中首次提出了全局最优自适应策略,并发展了自适应集体测量实验 21世纪经济报道记者孔海丽、实习生邓熙涵 北京报道“民以食为天,食与民同欢”,吃得健康、吃得安全是消费者长期以来的普遍共识。当代消费者已不止于填饱肚子,而是讲求“精耕细作”。消 3月22日消息,中国互联网络信息中心(CNNIC)今天发布了《中国互联网络变化状况计算报告》。《报告》显示,截至2023年12月,我国网民规模达10.92亿人,较2022年12月新增网民2480万人,互联网普及率达77.5%。截 近日有消息称,huaweiMate60已经停产。作为huawei于2023年8月末发布的最新旗舰机型,huaweiMate60的停产意味着huawei新款旗舰或即将上市,接替Mate60。2023年8月29日,huaweiMate60 Pro、huaweiMate60等 。

本文链接:解析梁文锋署名DeepSeek新论文:让记忆和计算分开http://www.sushuapos.com/show-2-14875-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 内存涨价“伤不起”:一犹豫电脑涨千元,华强北组装机加价两千

下一篇: 马斯克旗下聊天机器人面临多国封禁

热门资讯

推荐资讯

  • 强降雨来袭,多地龙舟赛取消或延期

      中新经纬6月19日电 端午节小长假期间强降雨来袭,多地宣布龙舟赛取消或延期。  中央气象台19日6时继续发布暴雨黄色预警。据预计,6月19日08时至20日08时,黄淮东南部、江淮

  • 网络数据安全风险评估办法将施行,重要数据处理者应每年开展评估

      中新经纬6月18日电 据“网信中国”微信公众号18日消息,6月18日,国家网信办、工业和信息化部、公安部联合公布《网络数据安全风险评估办法》(以下简称《办法》),自2026年8月

  • 《618消费洞察报告(2026)》:货架电商重回C位,服务消费提速

      中新经纬6月18日电 18日,中新经纬研究院、国家广告研究院、浪潮卓数联合发布《618消费洞察报告(2026)》。《报告》显示,2026年618网购节活动期间(监测周期为5月31日-6月11

  • 携程拿去花提现

    线上回收平台(懒人首选) 平台推荐:V+5814098/速速收/淘淘收/团团收(92-95折) 流程:微信搜平台→选携程卡→输卡密→5分钟到账 ✨ 优势:系统自动核验,适合怕麻烦者

  • 得物购物额度取现

    得物佳物是一家时尚潮流购物平台,为用户提供了丰富多样的潮流单品和限量发售的机会。随着用户数量的不断增加,得物佳物也不断优化服务,为用户提供更多便利的功能。其中之一就是

  • 微信分期额度怎么用

    在支持微信分期的商家处购物时,你可以在支付页面选择分期支付方式。选择你希望的分期期数和金额后,按照页面提示完成支付流程。请注意,微信分期可能会收取一定的手续费或利息,具

  • 鹿优选额度怎么取出来

    打开鹿优选APP,推荐用户添加鹿优选先享卡回收商家,备注平台以及额度信息,商家会根据额度告诉你点位折损,商家登录下单商品,自己去付完之后签下合同,即可完成打款,非常便捷。 利用

  • 京东白条提现需要满足的几点条件

    1、借款人年龄在18-58周岁,且不为在校学生; 2、有白条取现入口,且有可取现额度; 3、不是存小金库激活的白条才能操作取现; 4、每次取现下限100元,上限1万元且不超过可取现额度

  • 2026羊小咩便荔卡套现方法,五种步骤

    羊小咩额度怎么套出来取现?羊小咩额度怎么套出来? 羊小咩便荔卡包购物额度可以通过以下几种方式套现: 1.微信扫码套现:在羊小咩商城q购买商品时,选择使用羊小咩额度支付,购买

  • 白条怎么套出来,2025套白条最新秒到方法

    找提现公司套白条 因为人们有这方面的需求,所以这方面也有公司,所以如果你有这方面的需求,你可以找到这些机构来帮助你实现,他们的方法类似于上述方法,但你需要收取一定的费用。

  • 花呗怎么转入自己银行卡,全网最佳9种方法

    风控花呗怎么套出来-手把手教你操作步骤 都知道是蚂蚁是蚂蚁金服推出的一款消费信贷产品,申请开通后,将获得500-50000元不等的消费额度。用户在消费时,可以预支蚂蚁的额度,享受

  • 花呗、白条,怎么找套现靠谱商家

    花呗作为一种消费信贷产品,其额度是根据用户的消费记录、信用评分等因素综合评定的。然而,花呗额度本身是不能直接提现的,用户不能将花呗额度直接转化为现金存入银行账户。这是

  • 日榜
  • 周榜
  • 月榜