推理模型：“慢思考”让决策更周全

发布时间: 2025-02-18 09:49:23 来源：科技日报

观看：124

2025年，“推理模型”成为人工智能行业的热词。从科大讯飞发布首个使用全国产算力训练的深度推理大模型——讯飞星火X1，到深度求索公司上线DeepSeek-R1推理模型，都将“推理模型”推到聚光灯下。

多数大语言模型具备一定推理能力，但推理模型具有更强大的推理、逻辑分析和决策能力。推理模型会运用各种推理技巧，如演绎推理、归纳推理、类比推理等，来模拟人类的思考方式。多位业内人士接受科技日报记者采访时说，在人工智能大模型不断迭代升级的浪潮中，推理模型以创新的技术为行业发展注入新活力，也让人们对人工智能未来发展有了更大想象空间。

推理模仿人类“慢思考”

在复旦大学计算机科学技术学院教授、上海市数据科学重点实验室主任肖仰华看来，过去，大模型的生成能力主要由语料决定。但专家级的推理能力并非“题海战术”可以实现，而是需要大模型具备强大的思维能力。

心理学家认为，人类存在两种思维模式。一种是主要用来对日常生活中的简单问题进行判断、决策的“快思考”；另一种则是用于对一些特定问题进行深入分析、研判的“慢思考”。“快思考”是人类基于大量日常经验、常识等，对简单问题作出的快速反应，往往在人们无意识之间完成，是一种更加接近“本能”的思考方式。与之相对，“慢思考”则需要调动大脑更多资源，遵循特定思维逻辑，对问题进行抽丝剥茧式分析研究，进而作出更加理性周全的决策。

作为人工智能的典型应用，大模型如今也有了“快”“慢”之别。

传统大语言通用模型的思维方式更像是“快思考”，其主要依靠算力对海量数据进行学习，实现对后续空白内容的快速预测，回答人类提出的各类问题，本质上是基于概率模型对可能的答案进行“猜测”。相比之下，推理大模型更有意识和逻辑，会在回答之前进行一段时间“慢思考”，依据特定思维链条，提供更全面解答。

科大讯飞研究院副院长殷兵举例说，讯飞星火X1在解答高考数学题等复杂题目时，会先将题目化繁为简，给出解题思路和步骤，呈现出全面的思考、分析和推理过程，进而给出准确的题目答案。殷兵说，推理模型更接近人类的“慢思考”方式。相较于通用大模型，推理模型在数学、医学、代码等领域，会产生更好的效果和意想不到的应用场景。

强化学习实现反思纠错

人类可以对复杂问题进行深入思考、理性分析的一大原因在于，大脑能够反思。通过对过去错误结果和正确经验的反馈学习，人类得以不断提升对复杂问题判断的正确率。推理模型中普遍应用的强化学习技术，在一定程度上模仿了人类的反思、纠错能力。

强化学习是一种机器学习方法，它允许智能体在与环境的交互中通过试错来学习最优策略。智能体在环境中执行相应行动，并根据行动的结果接收反馈，这些反馈信号则指导智能体调整下一步策略，循环往复，不断接近最优策略。

例如，DeepSeek-R1在训练推理模型时采用了一条此前鲜有人使用的完全依赖强化学习的训练路径，即仅根据模型输出答案的优劣等简单信息，对模型进行奖惩。这相当于在不施加任何指引的情况下，让一个刚出生不久的幼儿完全自主探索世界，并根据探索结果给予反馈，从而让幼儿在反复试错和成功中快速成长。

殷兵介绍，讯飞星火X1可以进行自我探索和反思验证，并基于答案正确与否的反馈信息进行强化训练。其中，自我评价迭代的评语模型能指出大模型存在的幻觉问题，大模型在得到评语模型的评价后可实现自我完善提升。同时，评语模型也通过强化训练进一步提升自身发现幻觉问题的能力。整个过程无需人员参与标注，而是依靠两个模型相互博弈、共同进化。多路径和反思迭代的强化学习技术使讯飞星火X1中能化繁为简，把复杂问题拆解成多个步骤进行思考推理，并进行自我反思探索。例如，它在解答高考数学题目时，不仅会实时呈现分步骤解题过程，还能对解题过程进行实时验算，反思纠正过程中的遗漏和问题，直至给出正确答案。而整个推理过程中形成的数据也可以被用于后续的强化学习。

可靠算力仍是关键因素

无论是模型训练还是推理，都需要算力平台作为硬件基础。虽然在特定领域，推理模型能够在实现同等效果的情况下消耗更少算力，但算力平台的可靠性、稳定性仍然是决定推理模型发展的重要因素。

此前，科大讯飞已联合华为打造出首个国产算力万卡平台“飞星一号”，并基于此完成了讯飞星火大模型多个版本的迭代训练。但推理模型的训练是一条全新的技术路线。目前，国产算力在单卡、集群、生态等方面距国际领先水平有一定差距，全面基于国产算力平台开展模型训练，面临着不少挑战。

“讯飞星火X1的训练推理涉及多个模型的强交互，需要跨任务传输数据及权重，训练任务类型也由在线实时响应变为离线高吞吐。这需要克服国产显卡带宽不足的短板。”殷兵说，在这种复杂的训练模式下，影响效率的因素非常多，后训练所需的算力甚至提升了一个数量级。最终，通过与华为进行联合攻关，团队自研出训练框架并进行效率优化，实现了模型算法在国产算力上的成功适配，端到端效率大幅提升。

2025年，“推理模型”成为人工智能行业的热词。从科大讯飞发布首个使用全国产算力训练的深度推理大模型——讯飞星火X1，到深度求索公司上线DeepSeek-R1推理模型，都将“推理模型”推到聚光灯下。

多数大语言模型具备一定推理能力，但推理模型具有更强大的推理、逻辑分析和决策能力。推理模型会运用各种推理技巧，如演绎推理、归纳推理、类比推理等，来模拟人类的思考方式。多位业内人士接受科技日报记者采访时说，在人工智能大模型不断迭代升级的浪潮中，推理模型以创新的技术为行业发展注入新活力，也让人们对人工智能未来发展有了更大想象空间。

推理模仿人类“慢思考”

在复旦大学计算机科学技术学院教授、上海市数据科学重点实验室主任肖仰华看来，过去，大模型的生成能力主要由语料决定。但专家级的推理能力并非“题海战术”可以实现，而是需要大模型具备强大的思维能力。

心理学家认为，人类存在两种思维模式。一种是主要用来对日常生活中的简单问题进行判断、决策的“快思考”；另一种则是用于对一些特定问题进行深入分析、研判的“慢思考”。“快思考”是人类基于大量日常经验、常识等，对简单问题作出的快速反应，往往在人们无意识之间完成，是一种更加接近“本能”的思考方式。与之相对，“慢思考”则需要调动大脑更多资源，遵循特定思维逻辑，对问题进行抽丝剥茧式分析研究，进而作出更加理性周全的决策。

作为人工智能的典型应用，大模型如今也有了“快”“慢”之别。

传统大语言通用模型的思维方式更像是“快思考”，其主要依靠算力对海量数据进行学习，实现对后续空白内容的快速预测，回答人类提出的各类问题，本质上是基于概率模型对可能的答案进行“猜测”。相比之下，推理大模型更有意识和逻辑，会在回答之前进行一段时间“慢思考”，依据特定思维链条，提供更全面解答。

科大讯飞研究院副院长殷兵举例说，讯飞星火X1在解答高考数学题等复杂题目时，会先将题目化繁为简，给出解题思路和步骤，呈现出全面的思考、分析和推理过程，进而给出准确的题目答案。殷兵说，推理模型更接近人类的“慢思考”方式。相较于通用大模型，推理模型在数学、医学、代码等领域，会产生更好的效果和意想不到的应用场景。

强化学习实现反思纠错

人类可以对复杂问题进行深入思考、理性分析的一大原因在于，大脑能够反思。通过对过去错误结果和正确经验的反馈学习，人类得以不断提升对复杂问题判断的正确率。推理模型中普遍应用的强化学习技术，在一定程度上模仿了人类的反思、纠错能力。

强化学习是一种机器学习方法，它允许智能体在与环境的交互中通过试错来学习最优策略。智能体在环境中执行相应行动，并根据行动的结果接收反馈，这些反馈信号则指导智能体调整下一步策略，循环往复，不断接近最优策略。

例如，DeepSeek-R1在训练推理模型时采用了一条此前鲜有人使用的完全依赖强化学习的训练路径，即仅根据模型输出答案的优劣等简单信息，对模型进行奖惩。这相当于在不施加任何指引的情况下，让一个刚出生不久的幼儿完全自主探索世界，并根据探索结果给予反馈，从而让幼儿在反复试错和成功中快速成长。

殷兵介绍，讯飞星火X1可以进行自我探索和反思验证，并基于答案正确与否的反馈信息进行强化训练。其中，自我评价迭代的评语模型能指出大模型存在的幻觉问题，大模型在得到评语模型的评价后可实现自我完善提升。同时，评语模型也通过强化训练进一步提升自身发现幻觉问题的能力。整个过程无需人员参与标注，而是依靠两个模型相互博弈、共同进化。多路径和反思迭代的强化学习技术使讯飞星火X1中能化繁为简，把复杂问题拆解成多个步骤进行思考推理，并进行自我反思探索。例如，它在解答高考数学题目时，不仅会实时呈现分步骤解题过程，还能对解题过程进行实时验算，反思纠正过程中的遗漏和问题，直至给出正确答案。而整个推理过程中形成的数据也可以被用于后续的强化学习。

可靠算力仍是关键因素

无论是模型训练还是推理，都需要算力平台作为硬件基础。虽然在特定领域，推理模型能够在实现同等效果的情况下消耗更少算力，但算力平台的可靠性、稳定性仍然是决定推理模型发展的重要因素。

此前，科大讯飞已联合华为打造出首个国产算力万卡平台“飞星一号”，并基于此完成了讯飞星火大模型多个版本的迭代训练。但推理模型的训练是一条全新的技术路线。目前，国产算力在单卡、集群、生态等方面距国际领先水平有一定差距，全面基于国产算力平台开展模型训练，面临着不少挑战。

“讯飞星火X1的训练推理涉及多个模型的强交互，需要跨任务传输数据及权重，训练任务类型也由在线实时响应变为离线高吞吐。这需要克服国产显卡带宽不足的短板。”殷兵说，在这种复杂的训练模式下，影响效率的因素非常多，后训练所需的算力甚至提升了一个数量级。最终，通过与华为进行联合攻关，团队自研出训练框架并进行效率优化，实现了模型算法在国产算力上的成功适配，端到端效率大幅提升。

3月18日是第24个“全国爱肝日”。今年活动的主题是，“早防早筛，远离肝硬化”。重庆多所医院开展义诊咨询活动，通过普及肝病的防治知识，让民众主动筛查、规范治疗、定期随访，提高大众爱肝护肝意识，未来的足球场，人工智能（AI）当“大脑”？《自然·通讯》19日发表一项来自谷歌深度思维的最新成果，研究团队报告了一个名为“TacticAI”的系统，能在足球比赛中预测角球结果并提供实际且准确的战国际天文学家团队绘制了迄今最大的三维宇宙地图，记录了大约130万个活跃类星体在空间和时间上的位置。它将成为探测类星体、暗物质晕和超大质量黑洞的强大工具。发表在最新一期《天体物理学杂 3月22日消息，xiaomi集团的许斐在微博上表示，xiaomiCivi 4 Pro的预售业绩远超预期，尤其是春野绿配色，许多门店都出现了缺货情况。据了解，xiaomiCivi 4 Pro的春野绿后盖左侧采用了全新的绮彩鎏光工艺，通 21世纪经济报道记者石恩泽深圳报道操作系统似乎对地理入迷。鸿蒙和深圳，就像Windows和西雅图，也似Linux和赫尔辛基。这是地理与技术的紧密交融。深圳，可以说是鸿蒙的诞生之地，在全球科 3月22日，中国互联网络信息中心（CNNIC）在京发布第53次《中国互联网络发展状况统计报告》。报告显示，截至2023年12月，我国网民规模达10.92亿人，互联网普及率达77.5%；网络基础设施建设持续加强，新型消费。

本文链接：推理模型：“慢思考”让决策更周全http://www.sushuapos.com/show-2-10649-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：新疆哈密上线 “满血版”DeepSeek-R1云服务

下一篇：新装置解决石油产业抽油杆防锈难题油田小站捧回国际大奖

推理模型：“慢思考”让决策更周全

热门资讯

推荐资讯

科技最热文章