快讯科技财经汽车社会旅游娱乐时尚健康生活科学教育

热搜：爆火电博会佰维存储迎财神的kpi：清华大学校德国2月工深圳新政：支《阳光灿烂

解析梁文锋署名DeepSeek新论文：让记忆和计算分开

发布时间: 来源：新京报

观看：33

根据研究人员测试，模型在处理超过5轮的多步骤逻辑推理任务时，会出现关键信息丢失的现象。在企业客服场景，模型无法长期记住用户的个性化需求；在医疗问诊场景，患者此前提及的病史、用药禁忌可能被忽略；在代码生成场景，跨文件的函数调用逻辑易出现混乱。

1月12日晚间，DeepSeek发布梁文锋署名的新论文，主题为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》（直译为基于可扩展查找的条件记忆：大语言模型稀疏性的新维度），这也是2026开年至今，DeepSeek团队的第二篇重磅论文。

此前，在1月1日发布的论文中，DeepSeek提出一种名为“mHC”（直译为“流形约束超连接”）的框架，可以有效解决大模型训练中的稳定性问题。而在本次发布的论文中，DeepSeek联合北京大学提出了“条件记忆”这一概念，直指当前大语言模型基础架构Transformer在知识检索方面存在的低效和算力消耗问题。

在这篇论文里，DeepSeek通过创新的Engram（直译为：记忆痕迹）架构为模型规模化扩展提供了新的技术路径，若以简单的比喻来理解，就是DeepSeek设计了一种新架构，将大模型的“条件记忆”和“计算”分开，最终达到了降低错误、节省算力的目的。

预印本网站上DeepSeek的论文页面截图，红框为梁文锋名字。

大模型“痛点”：简单问题需要复杂推理，容易“遗忘”

许多AI大模型用户均曾在使用过程中发现过一个现象：AI会偶尔“忘记”自己曾经说过的话。对于这一问题，有AI聊天重度用户曾对记者表示，可以通过再次“提醒”的方式来让AI重复记起，ChatGPT等应用也对此进行过设置，让用户可以保存一些较为重要的信息到“长期记忆”中。

然而，这一切只能“治标”不能“治本”。究其原因，根据美国约翰斯·霍普金斯大学和中国人民大学的研究团队2025年3月发布的论文《大型语言模型不具备类人工作记忆》（LLMs Do Not Have Human-Like Working Memory），大语言模型所依赖的“上下文窗口”与工作记忆存在本质区别。

根据研究人员测试，模型在处理超过5轮的多步骤逻辑推理任务时，会出现关键信息丢失的现象，在长文本生成场景下，前文设定的人物关系、情节线索极易发生偏差。

在实际应用中，这一缺陷有可能被无限放大。如在企业客服场景，模型无法长期记住用户的个性化需求；在医疗问诊场景，患者此前提及的病史、用药禁忌可能被忽略；在代码生成场景，跨文件的函数调用逻辑易出现混乱。可以说，记忆短板已成为大模型从 “通用工具” 迈向 “垂直领域专用系统” 的最大障碍。

究其原因，在多轮对话中，早期输入的关键信息会随着对话轮次增加而逐渐衰减，最终被新信息覆盖。这种 “答后忘前”的现象，本质是模型的短时记忆无法有效转化为长期可用的知识。另一方面，密集型注意力计算模式下，记忆存储与逻辑推理共享算力资源，二者存在天然的资源竞争关系 —— 模型难以同时兼顾 “记住更多信息” 与 “精准完成推理”。

这一背景下，DeepSeek则保持了一贯的“省钱”作风，看到了这之中存在的算力消耗问题。梁文锋署名的新论文表示，语言建模本质上包含两类子任务：一类是组合式推理，需要依赖深层、动态计算完成；另一类是知识检索，面向命名实体等相对静态的内容，理论上可以通过简单查找更高效地处理。然而，现有Transformer架构缺乏原生的查找组件，遇到这类静态信息时往往仍要反复调用深层网络进行重建，从而加剧算力浪费并推高推理成本。

DeepSeek在论文中指出，当前主流模型在内部运行方式上仍存在明显低效。大量固定知识和常见语言模式并不需要复杂推理，但模型在推理时往往仍要通过多层计算重新构建相关信息，导致算力被大量消耗在记忆相关操作上。在长文本和知识密集型任务中，这一问题更为突出，重复静态信息的重建会增加额外的推理开销并拉长推理链路。

首创MoE+Engram双稀疏轴架构，实现“推理+检索”分工协作

那么，如何解决上述问题呢？

根据DeepSeek的论文，研究人员首次将条件记忆（Conditional Memory）作为混合专家模型（MoE）条件计算的互补维度，提出计算与记忆双稀疏轴的设计思路，这也是此次研究的核心创新点。

所谓“条件记忆”，是指模型能够基于输入中的局部上下文模式，以常数时间从大规模参数化记忆中检索并融合静态知识表示，从而避免在推理过程中反复通过深层计算重建高频、模板化信息，类似于人类在面对熟悉知识时直接调用既有记忆，而非重新推导。

Engram架构示意图来源：DeepSeek论文截图

具体而言，条件记忆通过Engram模块（记忆痕迹）实现静态知识存储与动态计算的分离，达成静态模式的常数时间O(1)查找。其核心逻辑是为语言建模的两类子任务进行分工：MoE专注处理需要深层思考的组合式推理任务，Engram则依托条件记忆机制负责静态知识的快速检索，从架构上优化了算力资源分配，改变了传统模型用计算模拟记忆的低效模式。当大约20%至25%的稀疏参数预算分配给Engram，剩余部分留给MoE时（75% -80%），模型性能达到最佳。

这种稀疏性设计带来两大优势：一是大幅降低算力消耗，静默状态的记忆资源不占用计算资源，提升模型运行效率；二是拓展记忆容量，稀疏存储模式可支持更大规模的知识存入，突破传统注意力窗口的物理限制。

论文给出了这一新方案在准确性上所得到的提升：在长上下文检索方面，研究人员采用业内公认的两个长上下文评测基准。实验结果显示，在32k上下文长度下，Engram-27B 在多项 Needle-in-a-Haystack（NIAH）任务中显著优于MoE基线模型，Multi-Query NIAH的准确率从 84.2%提升至97.0%，Variable Tracking从77.0%提升至89.0%。

目前，该研究的代码已开源，DeepSeek团队在论文最后表示，“我们认为条件记忆函数是下一代稀疏模型中不可或缺的建模基元。”这一表述的背后，是行业对大模型技术演进方向的共识——当参数竞赛进入瓶颈期，稀疏性设计将成为提升模型效率与能力的核心路径，而条件记忆或许可以成为稀疏模型在记忆领域的关键突破。

在业界猜测DeepSeek下一代模型将于春节前发布的背景下，这篇论文的出现颇具风向标意义，论文提出的技术范式也为大模型的底层架构创新提供了新的思路。

新京报贝壳财经记者罗亦丹实习生郭雯华

根据研究人员测试，模型在处理超过5轮的多步骤逻辑推理任务时，会出现关键信息丢失的现象。在企业客服场景，模型无法长期记住用户的个性化需求；在医疗问诊场景，患者此前提及的病史、用药禁忌可能被忽略；在代码生成场景，跨文件的函数调用逻辑易出现混乱。

1月12日晚间，DeepSeek发布梁文锋署名的新论文，主题为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》（直译为基于可扩展查找的条件记忆：大语言模型稀疏性的新维度），这也是2026开年至今，DeepSeek团队的第二篇重磅论文。

此前，在1月1日发布的论文中，DeepSeek提出一种名为“mHC”（直译为“流形约束超连接”）的框架，可以有效解决大模型训练中的稳定性问题。而在本次发布的论文中，DeepSeek联合北京大学提出了“条件记忆”这一概念，直指当前大语言模型基础架构Transformer在知识检索方面存在的低效和算力消耗问题。

在这篇论文里，DeepSeek通过创新的Engram（直译为：记忆痕迹）架构为模型规模化扩展提供了新的技术路径，若以简单的比喻来理解，就是DeepSeek设计了一种新架构，将大模型的“条件记忆”和“计算”分开，最终达到了降低错误、节省算力的目的。

预印本网站上DeepSeek的论文页面截图，红框为梁文锋名字。

大模型“痛点”：简单问题需要复杂推理，容易“遗忘”

许多AI大模型用户均曾在使用过程中发现过一个现象：AI会偶尔“忘记”自己曾经说过的话。对于这一问题，有AI聊天重度用户曾对记者表示，可以通过再次“提醒”的方式来让AI重复记起，ChatGPT等应用也对此进行过设置，让用户可以保存一些较为重要的信息到“长期记忆”中。

然而，这一切只能“治标”不能“治本”。究其原因，根据美国约翰斯·霍普金斯大学和中国人民大学的研究团队2025年3月发布的论文《大型语言模型不具备类人工作记忆》（LLMs Do Not Have Human-Like Working Memory），大语言模型所依赖的“上下文窗口”与工作记忆存在本质区别。

根据研究人员测试，模型在处理超过5轮的多步骤逻辑推理任务时，会出现关键信息丢失的现象，在长文本生成场景下，前文设定的人物关系、情节线索极易发生偏差。

在实际应用中，这一缺陷有可能被无限放大。如在企业客服场景，模型无法长期记住用户的个性化需求；在医疗问诊场景，患者此前提及的病史、用药禁忌可能被忽略；在代码生成场景，跨文件的函数调用逻辑易出现混乱。可以说，记忆短板已成为大模型从 “通用工具” 迈向 “垂直领域专用系统” 的最大障碍。

究其原因，在多轮对话中，早期输入的关键信息会随着对话轮次增加而逐渐衰减，最终被新信息覆盖。这种 “答后忘前”的现象，本质是模型的短时记忆无法有效转化为长期可用的知识。另一方面，密集型注意力计算模式下，记忆存储与逻辑推理共享算力资源，二者存在天然的资源竞争关系 —— 模型难以同时兼顾 “记住更多信息” 与 “精准完成推理”。

这一背景下，DeepSeek则保持了一贯的“省钱”作风，看到了这之中存在的算力消耗问题。梁文锋署名的新论文表示，语言建模本质上包含两类子任务：一类是组合式推理，需要依赖深层、动态计算完成；另一类是知识检索，面向命名实体等相对静态的内容，理论上可以通过简单查找更高效地处理。然而，现有Transformer架构缺乏原生的查找组件，遇到这类静态信息时往往仍要反复调用深层网络进行重建，从而加剧算力浪费并推高推理成本。

DeepSeek在论文中指出，当前主流模型在内部运行方式上仍存在明显低效。大量固定知识和常见语言模式并不需要复杂推理，但模型在推理时往往仍要通过多层计算重新构建相关信息，导致算力被大量消耗在记忆相关操作上。在长文本和知识密集型任务中，这一问题更为突出，重复静态信息的重建会增加额外的推理开销并拉长推理链路。

首创MoE+Engram双稀疏轴架构，实现“推理+检索”分工协作

那么，如何解决上述问题呢？

根据DeepSeek的论文，研究人员首次将条件记忆（Conditional Memory）作为混合专家模型（MoE）条件计算的互补维度，提出计算与记忆双稀疏轴的设计思路，这也是此次研究的核心创新点。

所谓“条件记忆”，是指模型能够基于输入中的局部上下文模式，以常数时间从大规模参数化记忆中检索并融合静态知识表示，从而避免在推理过程中反复通过深层计算重建高频、模板化信息，类似于人类在面对熟悉知识时直接调用既有记忆，而非重新推导。

Engram架构示意图来源：DeepSeek论文截图

具体而言，条件记忆通过Engram模块（记忆痕迹）实现静态知识存储与动态计算的分离，达成静态模式的常数时间O(1)查找。其核心逻辑是为语言建模的两类子任务进行分工：MoE专注处理需要深层思考的组合式推理任务，Engram则依托条件记忆机制负责静态知识的快速检索，从架构上优化了算力资源分配，改变了传统模型用计算模拟记忆的低效模式。当大约20%至25%的稀疏参数预算分配给Engram，剩余部分留给MoE时（75% -80%），模型性能达到最佳。

这种稀疏性设计带来两大优势：一是大幅降低算力消耗，静默状态的记忆资源不占用计算资源，提升模型运行效率；二是拓展记忆容量，稀疏存储模式可支持更大规模的知识存入，突破传统注意力窗口的物理限制。

论文给出了这一新方案在准确性上所得到的提升：在长上下文检索方面，研究人员采用业内公认的两个长上下文评测基准。实验结果显示，在32k上下文长度下，Engram-27B 在多项 Needle-in-a-Haystack（NIAH）任务中显著优于MoE基线模型，Multi-Query NIAH的准确率从 84.2%提升至97.0%，Variable Tracking从77.0%提升至89.0%。

目前，该研究的代码已开源，DeepSeek团队在论文最后表示，“我们认为条件记忆函数是下一代稀疏模型中不可或缺的建模基元。”这一表述的背后，是行业对大模型技术演进方向的共识——当参数竞赛进入瓶颈期，稀疏性设计将成为提升模型效率与能力的核心路径，而条件记忆或许可以成为稀疏模型在记忆领域的关键突破。

在业界猜测DeepSeek下一代模型将于春节前发布的背景下，这篇论文的出现颇具风向标意义，论文提出的技术范式也为大模型的底层架构创新提供了新的思路。

新京报贝壳财经记者罗亦丹实习生郭雯华

随着历史的车轮驶入2024年，大模型、AIGC等话题引发广泛热议，云计算与AI技术展现出了前所未有的深度融合趋势，就如同寒武纪的生物大爆发，激发着各行各业的创新浪潮。新质生产力时代到来，政企用云进民俗有言：桃花开，痴子忙。昨日，一大学生患“桃花癫”登上微博热搜，引发热议。该大学生认为周围女生都喜欢自己，并向全校的女生分别告白。不仅如此，由于精神的持续亢奋，该大学生还经常出现整晚不睡觉竹类植物是竹亚科植物的总称，与水稻、小麦、大麦和燕麦同属于禾本科BOP分支，具有重要的经济、生态和文化价值。为更好地服务竹类植物的系统进化和功能研究，有效整理归纳盘活海量的竹类组学和分　　诺贝尔化学奖获得者阿龙・切哈诺沃：做研究保持好奇心很重要　　中新网宁波3月17日电(林波)对于学生而言，如何找到研究的信心和价值，让他们有继续下去的动力？　　“做研究保持好奇心很重要。”3月17日，2004年诺贝尔化学旅行推销员问题是一个经典的数学问题，也是一个组合优化问题。德国柏林弗雷大学和亥姆霍兹柏林能源与材料研究中心（HZB）科学家开展的一项新研究证明，量子计算机在解决旅行推销员问题上，相较于传统 3月15日，我国一些地区停止居民集中供热。初春时节，乍暖还寒。停暖初期昼夜温差较大，老人、儿童等身体较弱者，可能需要使用电暖气、电热毯等取暖设备，这导致部分家庭近来用电量增加。最近，一款名为。

本文链接：解析梁文锋署名DeepSeek新论文：让记忆和计算分开http://www.sushuapos.com/show-2-14875-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：内存涨价“伤不起”：一犹豫电脑涨千元，华强北组装机加价两千

下一篇：马斯克旗下聊天机器人面临多国封禁

解析梁文锋署名DeepSeek新论文：让记忆和计算分开

热门资讯

推荐资讯

科技最热文章