DeepSeek成功的底层逻辑及产业影响

发布时间: 2025-02-20 09:32:03 来源：新华网

观看：117

仿佛是一夜之间，DeepSeek迎来了“滔天的流量”。它不仅在全球引发了新一轮的AI应用热潮，而且给全球的算力资本市场带来了重大冲击。究其原因，DeepSeek不仅在训练成本及使用成本、模型训练及优化方式等领域实现了大量的工程创新，而且打破了AI领域许多的传统叙事逻辑。简而言之，DeepSeek正在改变游戏规则。

DeepSeek最新推理模型R1的横空出世，带来了一个非常大的惊喜，仅用6天就发展了1亿用户。“用好奇心来揭开AGI的神秘面纱”这一愿景，更增添了神秘色彩。那么，DeepSeek在技术上究竟有哪些创新，成功的背后有哪些深层次的原因？这一切将对中美下一个十年的科技竞争产生哪些影响？

工程创新

成就与众不同

DeepSeek不仅引发了全球新一轮的AI应用热潮，而且对全球的算力资本市场产生重大冲击。究其原因，DeepSeek在训练成本及使用成本、模型训练及优化方式方面均实现了大量工程创新。

成本是最大的亮点。DeepSeek-R1的整体训练成本比OpenAI少了一个数量级以上。R1在整个训练过程中的工程优化和创新亮点非常多，包括“Multi-Head Latent Attention——多头隐形注意力机制”“Multi-token predication——多token预测”“有选择性地使用8个浮点数精度FP8来替代FP16甚至FP31”等。这些优化其实都不容易实现。每一个看似不显著的优化，在层级叠加效应下却产生了非常惊人的效果。

DeepSeek其实一共发布了两个模型，分别是R1和R1-zero。DeepSeek基于V3这个基础模型聚焦强化学习获得了R1-zero。但是，R1-zero在回答一些问题的时候容易产生包括“多语言混杂”在内的诸多问题。Deep-Seek又对这个模型进行了SFT（监督微调优化），从而产生了R1。R1的强化学习功能可以实现自动化，是比较容易去scale的。这样一来，该模型未来的想象空间接近无限。

颠覆性改变

打破传统叙事逻辑

DeepSeek之所以备受关注，本质在于打破了很多AI领域的传统叙事逻辑，例如OpenAI对于推理模型的算力堆叠霸权逻辑、AI应用圈的OpenAI寡头垄断格局逻辑、美国对中国的高制程芯片封锁逻辑以及AI大模型的开源闭源逻辑……

首先，AI圈公认这种推理模型的实现难度是极大的。此前，比较好的推理模型只有OpenAI的GPT o1。Anthropic做不出来，Google“卡”了很久才推出表现一般的Germini 2.0。DeepSeek-R1至少是o1的平替，甚至部分能力还要强于o1。进一步来看，R1不仅免费还开源，训练成本和使用成本均实现了指数级下降。原先o1凭借领先性可以“收割”相当长一段时间的价值，但DeepSeek-R1的出现以及开源的举措，让绝大多数开发者以及聚焦应用的创业公司都能够以更低的门槛去做开发。更加便宜且更容易私有化部署的R1，击碎了华尔街对于所有大模型公司的估值逻辑。

其次，DeepSeek的出现打破了AI应用圈原有的竞争枷锁。就算是美国的顶尖应用公司选择DeepSeek和ChatGPT时，答案也很清楚。Cursor、Perplexity这些AI领域的超级明星应用，都第一时间进行了DeepSeek模型的部署，而且设置了推荐第一优先级。此外，Google、Amazon、NV等平台也都部署了Deep-Seek模型。这些改变，同步影响了云服务的市场格局。国内大量从事应用开发的企业，在DeepSeek-R1出现之前不得不使用微软云（为了便捷使用GPT-4的API）；现在，使用阿里云上部署的Deep-Seek成为可选项。

再其次，DeepSeek带来了芯片封锁逻辑的崩塌。DeepSeek在辉达CUDA生态的更底层（例如PTX层），通过微调底层代码来优化性能，从而解决“连接通信能力和调度能力被阉割”的问题。专家普遍认为，目前中美AI大模型领域的技术差距约为4个月。从技术能力发展的趋势来看，这一差距继续缩小的概率大于扩大的概率。

最后，开源让DeepSeek在舆论战中至少“不落下风”。在AGI的道路上做出最强大的模型并开源，应该是OpenAI最早的初心和使命。市场永远不会说谎，谁的模型能力强谁就能掌握最终的话语权。2024年12月DeepSeek V3发布的时候，国际主流媒体主要关注其“成本低廉”；当Deep-Seek-R1发布时，情况则截然不同，因为“滔天的流量”来了。作为一个开源模型，DeepSeek让所有用户在任何领域都增加了一个“顶尖专家”，免费且24小时随时在线。

仿佛是一夜之间，DeepSeek迎来了“滔天的流量”。它不仅在全球引发了新一轮的AI应用热潮，而且给全球的算力资本市场带来了重大冲击。究其原因，DeepSeek不仅在训练成本及使用成本、模型训练及优化方式等领域实现了大量的工程创新，而且打破了AI领域许多的传统叙事逻辑。简而言之，DeepSeek正在改变游戏规则。

DeepSeek最新推理模型R1的横空出世，带来了一个非常大的惊喜，仅用6天就发展了1亿用户。“用好奇心来揭开AGI的神秘面纱”这一愿景，更增添了神秘色彩。那么，DeepSeek在技术上究竟有哪些创新，成功的背后有哪些深层次的原因？这一切将对中美下一个十年的科技竞争产生哪些影响？

工程创新

成就与众不同

DeepSeek不仅引发了全球新一轮的AI应用热潮，而且对全球的算力资本市场产生重大冲击。究其原因，DeepSeek在训练成本及使用成本、模型训练及优化方式方面均实现了大量工程创新。

成本是最大的亮点。DeepSeek-R1的整体训练成本比OpenAI少了一个数量级以上。R1在整个训练过程中的工程优化和创新亮点非常多，包括“Multi-Head Latent Attention——多头隐形注意力机制”“Multi-token predication——多token预测”“有选择性地使用8个浮点数精度FP8来替代FP16甚至FP31”等。这些优化其实都不容易实现。每一个看似不显著的优化，在层级叠加效应下却产生了非常惊人的效果。

DeepSeek其实一共发布了两个模型，分别是R1和R1-zero。DeepSeek基于V3这个基础模型聚焦强化学习获得了R1-zero。但是，R1-zero在回答一些问题的时候容易产生包括“多语言混杂”在内的诸多问题。Deep-Seek又对这个模型进行了SFT（监督微调优化），从而产生了R1。R1的强化学习功能可以实现自动化，是比较容易去scale的。这样一来，该模型未来的想象空间接近无限。

颠覆性改变

打破传统叙事逻辑

DeepSeek之所以备受关注，本质在于打破了很多AI领域的传统叙事逻辑，例如OpenAI对于推理模型的算力堆叠霸权逻辑、AI应用圈的OpenAI寡头垄断格局逻辑、美国对中国的高制程芯片封锁逻辑以及AI大模型的开源闭源逻辑……

首先，AI圈公认这种推理模型的实现难度是极大的。此前，比较好的推理模型只有OpenAI的GPT o1。Anthropic做不出来，Google“卡”了很久才推出表现一般的Germini 2.0。DeepSeek-R1至少是o1的平替，甚至部分能力还要强于o1。进一步来看，R1不仅免费还开源，训练成本和使用成本均实现了指数级下降。原先o1凭借领先性可以“收割”相当长一段时间的价值，但DeepSeek-R1的出现以及开源的举措，让绝大多数开发者以及聚焦应用的创业公司都能够以更低的门槛去做开发。更加便宜且更容易私有化部署的R1，击碎了华尔街对于所有大模型公司的估值逻辑。

其次，DeepSeek的出现打破了AI应用圈原有的竞争枷锁。就算是美国的顶尖应用公司选择DeepSeek和ChatGPT时，答案也很清楚。Cursor、Perplexity这些AI领域的超级明星应用，都第一时间进行了DeepSeek模型的部署，而且设置了推荐第一优先级。此外，Google、Amazon、NV等平台也都部署了Deep-Seek模型。这些改变，同步影响了云服务的市场格局。国内大量从事应用开发的企业，在DeepSeek-R1出现之前不得不使用微软云（为了便捷使用GPT-4的API）；现在，使用阿里云上部署的Deep-Seek成为可选项。

再其次，DeepSeek带来了芯片封锁逻辑的崩塌。DeepSeek在辉达CUDA生态的更底层（例如PTX层），通过微调底层代码来优化性能，从而解决“连接通信能力和调度能力被阉割”的问题。专家普遍认为，目前中美AI大模型领域的技术差距约为4个月。从技术能力发展的趋势来看，这一差距继续缩小的概率大于扩大的概率。

最后，开源让DeepSeek在舆论战中至少“不落下风”。在AGI的道路上做出最强大的模型并开源，应该是OpenAI最早的初心和使命。市场永远不会说谎，谁的模型能力强谁就能掌握最终的话语权。2024年12月DeepSeek V3发布的时候，国际主流媒体主要关注其“成本低廉”；当Deep-Seek-R1发布时，情况则截然不同，因为“滔天的流量”来了。作为一个开源模型，DeepSeek让所有用户在任何领域都增加了一个“顶尖专家”，免费且24小时随时在线。

3月19日，记者从香港科技大学获悉，该校以人工智能生成式工具设计出10位“AI讲师”，这些“AI讲师”来自世界各地，属不同民族及文化背景。该校希望通过创新教学模式，激发学生学习热情，提升课堂参与度因流量突然剧增，3月21日，陆续有用户在社交平台上表示，月之暗面旗下大模型应用Kimi智能助手的APP和小程序均无法正常使用。截至记者发稿时，相关页面和功能已经恢复正常。Kimi突然爆火，在A 记者3月21日获悉，商汤科技与遥感数据平台吉林一号网、四维地球、星图地球等展开合作，此举标志着“SenseEarth智能遥感云”平台数据源全面升级，将为行业用户提供更完善、精准的一体化的高分辨率　　“AI钢铁侠”黄仁勋，又进化了英伟达　　作者丨倪雨晴　　2024年，英伟达一年一度的GTC大会已然成为AI界春晚，现场座无虚席，全球AI爱好者翘首以待黄仁勋的独家SOLO。　　北京时间3月19日凌晨，GTC终于拉开大幕。英伟达创 3月22日消息，根据huawei旗舰机型迭代策略，今年上半年将发布影像旗舰huaweiP70系列。然而，这两天一张流出的图片声称huaweiP70将于3月23日开始预售，并附有各个版本的具体售价。但据媒体报道，huawei相关 3月23日消息，xiaomi集团王晓雁晒出了xiaomiCivi 4 Pro限定色真机照，该系列共有三款颜色，分别是蓝色、粉色和黑与白，定价为3599元，将于4月1日开始发售。据了解，xiaomiCivi 4 Pro限定色整体设计更像专业。

本文链接：DeepSeek成功的底层逻辑及产业影响http://www.sushuapos.com/show-2-10758-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：中央网信办部署推进2025年信息化重点工作

下一篇：小心AI伴侣背后的“温柔陷阱”

DeepSeek成功的底层逻辑及产业影响

热门资讯

推荐资讯

科技最热文章