设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

推理模型:“慢思考”让决策更周全

发布时间: 来源: 科技日报

2025年,“推理模型”成为人工智能行业的热词。从科大讯飞发布首个使用全国产算力训练的深度推理大模型——讯飞星火X1,到深度求索公司上线DeepSeek-R1推理模型,都将“推理模型”推到聚光灯下。4Le速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

多数大语言模型具备一定推理能力,但推理模型具有更强大的推理、逻辑分析和决策能力。推理模型会运用各种推理技巧,如演绎推理、归纳推理、类比推理等,来模拟人类的思考方式。多位业内人士接受科技日报记者采访时说,在人工智能大模型不断迭代升级的浪潮中,推理模型以创新的技术为行业发展注入新活力,也让人们对人工智能未来发展有了更大想象空间。4Le速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

推理模仿人类“慢思考”4Le速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在复旦大学计算机科学技术学院教授、上海市数据科学重点实验室主任肖仰华看来,过去,大模型的生成能力主要由语料决定。但专家级的推理能力并非“题海战术”可以实现,而是需要大模型具备强大的思维能力。4Le速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

心理学家认为,人类存在两种思维模式。一种是主要用来对日常生活中的简单问题进行判断、决策的“快思考”;另一种则是用于对一些特定问题进行深入分析、研判的“慢思考”。“快思考”是人类基于大量日常经验、常识等,对简单问题作出的快速反应,往往在人们无意识之间完成,是一种更加接近“本能”的思考方式。与之相对,“慢思考”则需要调动大脑更多资源,遵循特定思维逻辑,对问题进行抽丝剥茧式分析研究,进而作出更加理性周全的决策。4Le速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

作为人工智能的典型应用,大模型如今也有了“快”“慢”之别。4Le速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

传统大语言通用模型的思维方式更像是“快思考”,其主要依靠算力对海量数据进行学习,实现对后续空白内容的快速预测,回答人类提出的各类问题,本质上是基于概率模型对可能的答案进行“猜测”。相比之下,推理大模型更有意识和逻辑,会在回答之前进行一段时间“慢思考”,依据特定思维链条,提供更全面解答。4Le速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

科大讯飞研究院副院长殷兵举例说,讯飞星火X1在解答高考数学题等复杂题目时,会先将题目化繁为简,给出解题思路和步骤,呈现出全面的思考、分析和推理过程,进而给出准确的题目答案。殷兵说,推理模型更接近人类的“慢思考”方式。相较于通用大模型,推理模型在数学、医学、代码等领域,会产生更好的效果和意想不到的应用场景。4Le速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

强化学习实现反思纠错4Le速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

人类可以对复杂问题进行深入思考、理性分析的一大原因在于,大脑能够反思。通过对过去错误结果和正确经验的反馈学习,人类得以不断提升对复杂问题判断的正确率。推理模型中普遍应用的强化学习技术,在一定程度上模仿了人类的反思、纠错能力。4Le速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

强化学习是一种机器学习方法,它允许智能体在与环境的交互中通过试错来学习最优策略。智能体在环境中执行相应行动,并根据行动的结果接收反馈,这些反馈信号则指导智能体调整下一步策略,循环往复,不断接近最优策略。4Le速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

例如,DeepSeek-R1在训练推理模型时采用了一条此前鲜有人使用的完全依赖强化学习的训练路径,即仅根据模型输出答案的优劣等简单信息,对模型进行奖惩。这相当于在不施加任何指引的情况下,让一个刚出生不久的幼儿完全自主探索世界,并根据探索结果给予反馈,从而让幼儿在反复试错和成功中快速成长。4Le速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

殷兵介绍,讯飞星火X1可以进行自我探索和反思验证,并基于答案正确与否的反馈信息进行强化训练。其中,自我评价迭代的评语模型能指出大模型存在的幻觉问题,大模型在得到评语模型的评价后可实现自我完善提升。同时,评语模型也通过强化训练进一步提升自身发现幻觉问题的能力。整个过程无需人员参与标注,而是依靠两个模型相互博弈、共同进化。多路径和反思迭代的强化学习技术使讯飞星火X1中能化繁为简,把复杂问题拆解成多个步骤进行思考推理,并进行自我反思探索。例如,它在解答高考数学题目时,不仅会实时呈现分步骤解题过程,还能对解题过程进行实时验算,反思纠正过程中的遗漏和问题,直至给出正确答案。而整个推理过程中形成的数据也可以被用于后续的强化学习。4Le速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

可靠算力仍是关键因素4Le速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

无论是模型训练还是推理,都需要算力平台作为硬件基础。虽然在特定领域,推理模型能够在实现同等效果的情况下消耗更少算力,但算力平台的可靠性、稳定性仍然是决定推理模型发展的重要因素。4Le速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此前,科大讯飞已联合华为打造出首个国产算力万卡平台“飞星一号”,并基于此完成了讯飞星火大模型多个版本的迭代训练。但推理模型的训练是一条全新的技术路线。目前,国产算力在单卡、集群、生态等方面距国际领先水平有一定差距,全面基于国产算力平台开展模型训练,面临着不少挑战。4Le速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“讯飞星火X1的训练推理涉及多个模型的强交互,需要跨任务传输数据及权重,训练任务类型也由在线实时响应变为离线高吞吐。这需要克服国产显卡带宽不足的短板。”殷兵说,在这种复杂的训练模式下,影响效率的因素非常多,后训练所需的算力甚至提升了一个数量级。最终,通过与华为进行联合攻关,团队自研出训练框架并进行效率优化,实现了模型算法在国产算力上的成功适配,端到端效率大幅提升。4Le速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

2025年,“推理模型”成为人工智能行业的热词。从科大讯飞发布首个使用全国产算力训练的深度推理大模型——讯飞星火X1,到深度求索公司上线DeepSeek-R1推理模型,都将“推理模型”推到聚光灯下。4Le速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

多数大语言模型具备一定推理能力,但推理模型具有更强大的推理、逻辑分析和决策能力。推理模型会运用各种推理技巧,如演绎推理、归纳推理、类比推理等,来模拟人类的思考方式。多位业内人士接受科技日报记者采访时说,在人工智能大模型不断迭代升级的浪潮中,推理模型以创新的技术为行业发展注入新活力,也让人们对人工智能未来发展有了更大想象空间。4Le速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

推理模仿人类“慢思考”4Le速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在复旦大学计算机科学技术学院教授、上海市数据科学重点实验室主任肖仰华看来,过去,大模型的生成能力主要由语料决定。但专家级的推理能力并非“题海战术”可以实现,而是需要大模型具备强大的思维能力。4Le速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

心理学家认为,人类存在两种思维模式。一种是主要用来对日常生活中的简单问题进行判断、决策的“快思考”;另一种则是用于对一些特定问题进行深入分析、研判的“慢思考”。“快思考”是人类基于大量日常经验、常识等,对简单问题作出的快速反应,往往在人们无意识之间完成,是一种更加接近“本能”的思考方式。与之相对,“慢思考”则需要调动大脑更多资源,遵循特定思维逻辑,对问题进行抽丝剥茧式分析研究,进而作出更加理性周全的决策。4Le速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

作为人工智能的典型应用,大模型如今也有了“快”“慢”之别。4Le速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

传统大语言通用模型的思维方式更像是“快思考”,其主要依靠算力对海量数据进行学习,实现对后续空白内容的快速预测,回答人类提出的各类问题,本质上是基于概率模型对可能的答案进行“猜测”。相比之下,推理大模型更有意识和逻辑,会在回答之前进行一段时间“慢思考”,依据特定思维链条,提供更全面解答。4Le速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

科大讯飞研究院副院长殷兵举例说,讯飞星火X1在解答高考数学题等复杂题目时,会先将题目化繁为简,给出解题思路和步骤,呈现出全面的思考、分析和推理过程,进而给出准确的题目答案。殷兵说,推理模型更接近人类的“慢思考”方式。相较于通用大模型,推理模型在数学、医学、代码等领域,会产生更好的效果和意想不到的应用场景。4Le速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

强化学习实现反思纠错4Le速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

人类可以对复杂问题进行深入思考、理性分析的一大原因在于,大脑能够反思。通过对过去错误结果和正确经验的反馈学习,人类得以不断提升对复杂问题判断的正确率。推理模型中普遍应用的强化学习技术,在一定程度上模仿了人类的反思、纠错能力。4Le速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

强化学习是一种机器学习方法,它允许智能体在与环境的交互中通过试错来学习最优策略。智能体在环境中执行相应行动,并根据行动的结果接收反馈,这些反馈信号则指导智能体调整下一步策略,循环往复,不断接近最优策略。4Le速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

例如,DeepSeek-R1在训练推理模型时采用了一条此前鲜有人使用的完全依赖强化学习的训练路径,即仅根据模型输出答案的优劣等简单信息,对模型进行奖惩。这相当于在不施加任何指引的情况下,让一个刚出生不久的幼儿完全自主探索世界,并根据探索结果给予反馈,从而让幼儿在反复试错和成功中快速成长。4Le速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

殷兵介绍,讯飞星火X1可以进行自我探索和反思验证,并基于答案正确与否的反馈信息进行强化训练。其中,自我评价迭代的评语模型能指出大模型存在的幻觉问题,大模型在得到评语模型的评价后可实现自我完善提升。同时,评语模型也通过强化训练进一步提升自身发现幻觉问题的能力。整个过程无需人员参与标注,而是依靠两个模型相互博弈、共同进化。多路径和反思迭代的强化学习技术使讯飞星火X1中能化繁为简,把复杂问题拆解成多个步骤进行思考推理,并进行自我反思探索。例如,它在解答高考数学题目时,不仅会实时呈现分步骤解题过程,还能对解题过程进行实时验算,反思纠正过程中的遗漏和问题,直至给出正确答案。而整个推理过程中形成的数据也可以被用于后续的强化学习。4Le速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

可靠算力仍是关键因素4Le速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

无论是模型训练还是推理,都需要算力平台作为硬件基础。虽然在特定领域,推理模型能够在实现同等效果的情况下消耗更少算力,但算力平台的可靠性、稳定性仍然是决定推理模型发展的重要因素。4Le速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此前,科大讯飞已联合华为打造出首个国产算力万卡平台“飞星一号”,并基于此完成了讯飞星火大模型多个版本的迭代训练。但推理模型的训练是一条全新的技术路线。目前,国产算力在单卡、集群、生态等方面距国际领先水平有一定差距,全面基于国产算力平台开展模型训练,面临着不少挑战。4Le速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“讯飞星火X1的训练推理涉及多个模型的强交互,需要跨任务传输数据及权重,训练任务类型也由在线实时响应变为离线高吞吐。这需要克服国产显卡带宽不足的短板。”殷兵说,在这种复杂的训练模式下,影响效率的因素非常多,后训练所需的算力甚至提升了一个数量级。最终,通过与华为进行联合攻关,团队自研出训练框架并进行效率优化,实现了模型算法在国产算力上的成功适配,端到端效率大幅提升。4Le速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

3月18日,伴随着搬运车的轰鸣声,全国首个大规模清洁能源特高压直流输电工程的送端±800千伏特高压祁连换流站迎来了一位“新成员”——1号调相机转子,该换流站第7次年度检修工作 玻璃,是我们日常生活中常见且应用非常广泛的一种材料,如外墙、窗户、杯子、灯饰……但玻璃的应用远不止于此。2024年3月22日14时,由中国下一代教育基金会与中国平安共同主办、科技 联合国机构3月20日发布的《全球电子垃圾监测》报告显示,2022年全球范围内共产生6200万吨电子垃圾,其中仅有不到四分之一被回收利用。报告显示,2022年全球电子垃圾的产生量相比2010年增长了82%。 3月20日,在2024全球游戏开发者大会(GDC)上,腾讯发布了自研游戏AI引擎——GiiNEX。基于生成式AI和决策AI技术,GiiNEX将为游戏全生命周期提供丰富的AI解决方案。据悉,借助大模型等生成式AI 据英国《自然》周刊网站3月19日报道,研究人员首次利用生成式人工智能(AI)制造出全新抗体。报道称,本周生物学预印本资料库中的一份预印本报告的原理验证研究,提高了将“AI指导的蛋白质设计引入治 3月24日,记者从中国农业科学院获悉,该院蔬菜花卉研究所甘蓝类蔬菜遗传育种创新团队,开发了快速创制细胞质雄性不育系的新方法——“一步法”。相关研究日前发表在国际期刊《自然&midd 。

本文链接:推理模型:“慢思考”让决策更周全http://www.sushuapos.com/show-2-10649-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 新疆哈密上线 “满血版”DeepSeek-R1云服务

下一篇: 新装置解决石油产业抽油杆防锈难题 油田小站捧回国际大奖

热门资讯

推荐资讯

  • 参半母公司赴港上市,去年收入25亿,抖音持股近5%

      中新经纬4月1日电 (闫淑鑫)深圳小阔科技股份有限公司(下称小阔科技)近日递表港交所。招股书显示,小阔科技专注于口腔护理产品,拥有品牌“参半”“小箭头”等,2025年该公司

  • 为啥停战信号越强,黄金越涨?

      中新经纬4月1日电 (李自曼)按照传统分析框架,地缘冲突缓和或呈僵持态势,避险需求下降,黄金理应承压,但现实却恰恰相反。  据央视新闻1日报道,当地时间3月31日,美国总统特朗

  • 外媒:甲骨文将裁员数千人

      中新经纬4月1日电 美国消费者新闻与商业频道(CNBC)当地时间3月31日消息,软件制造商甲骨文告知员工,公司将裁减数千个工作岗位。此前,该公司股价暴跌,原因是其为构建人工智能

  • 官方提示:使用OpenClaw等智能体撰写专利申请文件或诱发多重风险

      中新经纬4月1日电 据国家知识产权局公众号消息,4月1日,国家知识产权局发布关于使用OpenClaw等智能体撰写专利申请文件的风险提示。  国家知识产权局称,近期,OpenClaw(“小

  • 前2月规模以上互联网企业利润同比增23.1%

      中新经纬3月31日电 31日,工信部披露1―2月份互联网和相关服务业运行情况。  工信部称,1―2月份,互联网业务收入保持增长势头,利润总额增速加快,研发经费投入保持较快增长,部

  • 证监会原副主席王建军涉嫌受贿案被提起公诉

      中新经纬3月31日电 据最高人民检察院官方微信号,山东检察机关依法对中国证监会原副主席王建军涉嫌受贿案提起公诉。  中国证券监督管理委员会原党委委员、副主席王建军

  • 贵州茅台上调飞天价格

      中新经纬3月30日电 贵州茅台上调飞天53%vol 500ml出厂价和零售价。  贵州茅台公告截图,下同  3月30日,贵州茅台公告,经研究决定,公司自3月31日起,将飞天53%vol 500ml贵州

  • *ST星农2023年年报造假被罚250万元

      中新经纬3月30日电 *ST星农30日公告,公司收到浙江证监局下发的《行政处罚决定书》。  浙江证监局指出,2023年,*ST星农全资子公司星光致远开展虚假棉花采收、咨询服务、推

  • 商务部:积极拓展低空消费

      中新经纬3月30日电 商务部市场运行和消费促进司司长杨沐表示,将支持有条件的地区发展邮轮游艇、房车露营等休闲消费,积极拓展低空消费。  30日,国新办就第六届中国国际

  • 中关村论坛观察:下一个“龙虾”是什么?“一定离人非常近”

      中新经纬3月29日电 (周奕航 谢婧雯)“我每天很忙,希望有人帮我把每天我关注的离散的热点资讯、行业动态等汇总好,在固定时间段主动推送给我,这就是我需要的体验,提升了我的

  • 问题来了,美军弹药库还能扛多久?

    美以伊战事延宕超一个月美国总统特朗普近日称取得“压倒性胜利”但美国情报机构评估显示伊朗仍有半数导弹发射装置完好美以消耗了多少弹药

  • 国际油价“高烧不退”,主要产油国宣布日均增产20.6万桶

    南方财经 21世纪经济报道记者吴斌 报道据新华社报道,石油输出国组织(欧佩克)5日发表声明说,8个“欧佩克+”主要产油国(沙特阿拉伯、俄罗斯、伊

  • 日榜
  • 周榜
  • 月榜