DeepSeek登上《自然》封面

发布时间: 来源：中国科学报

观看：51

北京时间9月17日晚，DeepSeek创始人梁文锋作为论文通讯作者，与同事合作的关于开源人工智能（AI）模型DeepSeek-R1采用的大规模推理模型训练方法的文章以封面形式发表于《自然》。研究表明，大语言模型（LLM）的推理能力可通过纯强化学习来提升，从而减少增强性能所需的人类输入工作量。训练出的模型在数学、编程竞赛和STEM领域研究生水平问题等任务上，比传统训练的LLM表现更好。

让AI模型像人类一样进行推理一直是难题。LLM已显示出一些推理能力，但训练过程需要大量计算资源。通过人工提示引导可改进这类模型，促使其生成中间推理步骤，从而大为强化其在复杂任务中的表现。但这个方法会导致计算成本过高，并限制其扩展潜力。

9月18日《自然》封面。

?

DeepSeek-R1包含一个在人类监督下的深入训练阶段，以优化推理过程。梁文峰和同事报告，该模型使用了强化学习而非人类示例来开发推理步骤，从而减少了训练成本和复杂性。DeepSeek-R1在被展示优质的问题解决案例后，会获得一个模板来产生推理过程。这一模型通过解决问题获得奖励，从而强化学习效果。在评估AI表现的数学基准测试中，DeepSeek-R1-Zero和DeepSeek-R1得分分别为77.9%和79.8%。研究者补充说，该模型在编程竞赛及研究生水平的生物学、物理和化学问题上同样表现优异。

当前版本的DeepSeek-R1有一些能力限制，研究者希望能在未来版本中得到改进。例如，该模型有时会混合语言，目前只针对中文和英文做了优化。它对提示词也很敏感，需要精心设计的提示词工程，在某些任务上没有展现出明显提升，例如软件工程任务。研究者总结说，未来研究可以聚焦优化奖励过程，以确保推理和任务结果可靠。

在同期发表的新闻观点文章中，卡内基梅隆大学的Daphne Ippolito和张益铭表示，当学生遇到具有挑战性的数学问题或程序员需要编写复杂算法时，他们很少能一次性解决所有问题。相反，他们会通过推理过程，记录笔记和中间步骤来最终得出解决方案。同样地，大型语言模型（LLMs）——这种处理并生成人类语言的人工智能（AI）系统——在解决复杂任务时，如果先写下推理过程再给出答案，其表现要比直接给出答案更好。大型语言模型（LLM）在输出中间推理步骤时准确性更高。一种名为“强化学习”的试错过程，可以教会它们自主做到这一点，而无需外部指令。

相关论文信息：

https://doi.org/10.1038/s41586-025-09422-z

https://doi.org/10.1038/d41586-025-02703-7

这些年，我们为什么越来越频繁提到创新？因为只有在原始创新上持续发力，在基础理论方法上有所突破，我们才能摆脱对国外的未来航天会是什么样？它会是在现有技术的基础上缓慢地进步吗？还是会以一种更激进、更意想不到的方式向前？人们能否实现类似教育、科技、人才三者相互促进、相辅相成。如何构建符合人才成长规律的教育评价机制，让更多优秀的科技人才脱颖而出？如何科技日报讯（记者张梦然）日本大阪都立大学科学家设计了一种高效、无创、无痛的方法，从尿液样本中重新编程犬类干细胞，使据哈尔滨工业大学机电工程学院消息，中国共产党党员，哈尔滨工业大学液压传动与控制专业的创始人、机电学院教授刘庆和同关于2023年度上海市专业技术服务平台建设立项的通知各有关单位：为加快实施创新驱动发展战略，进一步推进上海市专业技术。

本文链接：DeepSeek登上《自然》封面http://www.sushuapos.com/show-11-26132-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇： 2025年度赵九章优秀中青年科学奖获奖人选公示

下一篇：四川一高校通报学生外卖被扔：校方将承担快递柜费用，保卫处长停职

DeepSeek登上《自然》封面

热门资讯

推荐资讯

科学最热文章