北京时间9月17日晚,DeepSeek创始人梁文锋作为论文通讯作者,与同事合作的关于开源人工智能(AI)模型DeepSeek-R1采用的大规模推理模型训练方法的文章以封面形式发表于《自然》。研究表明,大语言模型(LLM)的推理能力可通过纯强化学习来提升,从而减少增强性能所需的人类输入工作量。训练出的模型在数学、编程竞赛和STEM领域研究生水平问题等任务上,比传统训练的LLM表现更好。
让AI模型像人类一样进行推理一直是难题。LLM已显示出一些推理能力,但训练过程需要大量计算资源。通过人工提示引导可改进这类模型,促使其生成中间推理步骤,从而大为强化其在复杂任务中的表现。但这个方法会导致计算成本过高,并限制其扩展潜力。
9月18日《自然》封面。
DeepSeek-R1包含一个在人类监督下的深入训练阶段,以优化推理过程。梁文峰和同事报告,该模型使用了强化学习而非人类示例来开发推理步骤,从而减少了训练成本和复杂性。DeepSeek-R1在被展示优质的问题解决案例后,会获得一个模板来产生推理过程。这一模型通过解决问题获得奖励,从而强化学习效果。在评估AI表现的数学基准测试中,DeepSeek-R1-Zero和DeepSeek-R1得分分别为77.9%和79.8%。研究者补充说,该模型在编程竞赛及研究生水平的生物学、物理和化学问题上同样表现优异。
当前版本的DeepSeek-R1有一些能力限制,研究者希望能在未来版本中得到改进。例如,该模型有时会混合语言,目前只针对中文和英文做了优化。它对提示词也很敏感,需要精心设计的提示词工程,在某些任务上没有展现出明显提升,例如软件工程任务。研究者总结说,未来研究可以聚焦优化奖励过程,以确保推理和任务结果可靠。
在同期发表的新闻观点文章中,卡内基梅隆大学的Daphne Ippolito和张益铭表示,当学生遇到具有挑战性的数学问题或程序员需要编写复杂算法时,他们很少能一次性解决所有问题。相反,他们会通过推理过程,记录笔记和中间步骤来最终得出解决方案。同样地,大型语言模型(LLMs)——这种处理并生成人类语言的人工智能(AI)系统——在解决复杂任务时,如果先写下推理过程再给出答案,其表现要比直接给出答案更好。大型语言模型(LLM)在输出中间推理步骤时准确性更高。一种名为“强化学习”的试错过程,可以教会它们自主做到这一点,而无需外部指令。
相关论文信息:
https://doi.org/10.1038/s41586-025-09422-z
https://doi.org/10.1038/d41586-025-02703-7
这些年,我们为什么越来越频繁提到创新?因为只有在原始创新上持续发力,在基础理论方法上有所突破,我们才能摆脱对国外的 未来航天会是什么样?它会是在现有技术的基础上缓慢地进步吗?还是会以一种更激进、更意想不到的方式向前?人们能否实现类似 教育、科技、人才三者相互促进、相辅相成。如何构建符合人才成长规律的教育评价机制,让更多优秀的科技人才脱颖而出?如何 科技日报讯 (记者张梦然)日本大阪都立大学科学家设计了一种高效、无创、无痛的方法,从尿液样本中重新编程犬类干细胞,使 据哈尔滨工业大学机电工程学院消息,中国共产党党员,哈尔滨工业大学液压传动与控制专业的创始人、机电学院教授刘庆和同 关于2023年度上海市专业技术服务平台建设立项的通知 各有关单位: 为加快实施创新驱动发展战略,进一步推进上海市专业技术 。本文链接:DeepSeek登上《自然》封面http://www.sushuapos.com/show-11-26132-0.html
声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。