快讯科技财经汽车社会旅游娱乐时尚健康生活科学教育

热搜：内地买家入搭载2.8吨京东618全 “十五五” 【好评中国重庆：首批配有十大猥琐

深度求索大模型：“花小钱办大事”

发布时间: 2025-01-15 09:16:05 来源：科技日报

观看：171

一个来自中国的开源模型，在开年之际聚焦了人工智能（AI）行业的目光。

日前，杭州深度求索人工智能基础技术研究有限公司（以下简称“深度求索”）上线并同步开源DeepSeek-V3模型，同时公布长达53页的技术报告，介绍关键技术和训练细节。

和很多语焉不详的报告相比，这份报告真正做到了开源。其中最抓人眼球的部分是，V3模型能力大幅升级，但训练仅仅花费557.6万美元，仅用2048块H800显卡，耗时不到两个月。

美国人工智能初创公司Anthropic首席执行官达里奥·阿莫迪曾透露，GPT-4o的模型训练成本约为1亿美元。美国开放人工智能研究中心（OpenAI）创始成员之一安德烈·卡帕西点评，DeepSeek-V3让在有限算力预算内进行模型预训练这件事变得容易。

深度求索如何实现“花小钱办大事”？它是否走出了大模型发展的一条新路？

降低模型推理成本

深度求索一直是国内AI版图上位置相对独特的一家——它是唯一没有做2C（面向个人消费者）应用的公司，选择开源路线，至今没有融过资。

去年5月，深度求索发布DeepSeek-V2，以其创新的模型架构和史无前例的性价比爆火。模型推理成本被降至每百万Tokens（大模型用来表示自然语言文本的单位）仅1元钱，约等于开源大模型Llama3 70B的七分之一，GPT-4 Turbo的七十分之一，引发字节、阿里、百度等企业的模型降价潮。

个中关节在于，DeepSeek提出的MLA（多头潜在注意力机制）架构和DeepSeekMoESparse（采用稀疏结构的混合专家模型）结构，大幅降低了模型的计算量和显存占用，实现了高效推理和经济高效的训练。

简单来说，模型压缩、专家并行训练、FP8混合精度训练、数据蒸馏与算法优化等一系列创新技术大幅降低了V3模型成本。作为新兴的低精度训练方法，FP8技术通过减少数据表示所需的位数，显著降低了内存占用和计算需求。据报道，目前，谷歌等已将这项技术引入模型训练与推理中。

深度科技研究院院长张孝荣在接受媒体采访时说，DeepSeek的“出圈”是对其在大模型技术上的突破和创新的认可，其通过优化算法和工程实践，实现高性能与低成本的平衡。DeepSeek为整个行业的发展注入活力，也对大模型的技术路径和工程实践产生积极影响，推动高效训练、模型轻量化和工程优化。

有业内人士分析，V3在架构创新、训练效率和推理性能方面展现巨大潜力，尤其在成本和性能的平衡方面作出重要贡献。不过，与此同时，也仍有许多挑战需要解决，如需进一步扩展上下文长度、优化多模态数据处理等。未来的研究方向包括提升模型的推理速度、完善更高效的硬件架构设计，以及增强多模态学习和生成能力。

不堆算力创新算法

大参数、大算力、大投入，这条已经被验证行之有效的ChatGPT路径，实则是绝大部分创业公司难以承受之重。

据报道，仍处于研发过程中的GPT-5，已进行过至少两轮训练，每轮训练耗时数月，一轮计算成本接近5亿美元。一年半过去，GPT-5仍未问世。这意味着，新一代通用大模型的训练成本已达到十多亿美元甚至更高。未来这一数字可能持续攀升。

规模定律（Scaling law）是指在训练大模型时，数据量、参数量和计算资源越多，训练出的模型能力和效果越好。然而，一段时间以来，行业对规模定律可持续性的疑问不绝于耳。

V3的出现提供了新的解法。“Scaling Law不只停留在预训练阶段，而是往后训练，尤其是注重推理领域的后训练集、强化学习等领域扩展。”智源研究院副院长兼总工程师林咏华接受科技日报记者采访时说，这一点在国外以OpenAI o1发布为标志，国内则有DeepSeek使用强化学习训练发布DeepSeek R1这个具有很强挖掘和激活能力的模型。

在林咏华看来，V3的发布，也印证了利用R1可以很好进行能力提升。

行业相关探索还有很多，如Kimi将强化学习用到更多搜索场景，发布以逻辑思考和深度思考为核心功能的数学模型K0-math；蚂蚁技术研究院建立强化学习实验室，围绕如何在后训练及强化学习上进行更多模型能力的探索。林咏华期待，未来不仅是靠堆砌更多算力、参数和数据，而是靠真正的算法创新，持续在后训练阶段帮助模型提升基础能力。

值得注意的是，“省钱模式开启”并不意味着算力式微。

V3发布后，360集团创始人周鸿祎发文称赞“DeepSeek的进步对推动中国AI产业发展是极大利好”，但他也认为，这并非说中国AI发展不需要高端算力芯片。囤显卡建算力集群依旧必要，因为目前预训练算力需求或许没那么大，但像慢思考这类复杂推理模型对推理算力需求大，文生图、文生视频的应用也需消耗大量算力资源。巨头们提供AI云服务，构建庞大算力基础必不可少，这与 DeepSeek 降低训练算力需求是两回事，两者并不矛盾。

一位行业专家在接受记者采访时认为，2025年，大模型行业会进一步收敛，这种收敛既包括技术层面，也包括厂商层面。进入“百模大战”后期，要进一步提高模型计算效率，降低推理成本，对计算的架构分布、利用效率等都提出更为精细化的要求。

“烧钱”不是唯一逻辑

深度求索创始人梁文锋在金融行业征战已久。他成立的幻方量化早在2019年就开始大手笔投入深度学习训练平台。2023年7月，梁文锋创立深度求索，专注AI大模型的研究和开发。

据报道，包括梁文锋在内，深度求索仅有139名工程师和研究人员。在外界看来，这是一支“神秘的东方力量”。

但在一次采访中，梁文锋曾透露，深度求索并没有什么高深莫测的奇才，团队都是国内顶尖高校的应届毕业生，没毕业的博四、博五实习生，还有一些毕业才几年的年轻人。他特别提及，“V2模型没有海外回来的人，都是本土的”。

他也曾在访谈中说，过去30多年的IT浪潮，中国基本上扮演的是追随者角色，“随着经济的发展，中国也应该逐步成为技术创新的主要贡献者”。如今，V3的横空出世贡献了一个更高效率、更低成本的大模型发展样本，也让AI行业看到一种可能：虽然训练大模型依然需要大规模显卡集群，但“烧钱”不是行业唯一的逻辑，也并不是谁烧钱多，谁就注定赢得一切。

对此，周鸿祎评论道，V3用2000块卡做到了万卡集群才能做到的事。用这种极致训练方法训练专业大模型，算力成本会进一步降低，促使中国AI在专业、垂直、场景、行业大模型上更快普及。

一个来自中国的开源模型，在开年之际聚焦了人工智能（AI）行业的目光。

日前，杭州深度求索人工智能基础技术研究有限公司（以下简称“深度求索”）上线并同步开源DeepSeek-V3模型，同时公布长达53页的技术报告，介绍关键技术和训练细节。

和很多语焉不详的报告相比，这份报告真正做到了开源。其中最抓人眼球的部分是，V3模型能力大幅升级，但训练仅仅花费557.6万美元，仅用2048块H800显卡，耗时不到两个月。

美国人工智能初创公司Anthropic首席执行官达里奥·阿莫迪曾透露，GPT-4o的模型训练成本约为1亿美元。美国开放人工智能研究中心（OpenAI）创始成员之一安德烈·卡帕西点评，DeepSeek-V3让在有限算力预算内进行模型预训练这件事变得容易。

深度求索如何实现“花小钱办大事”？它是否走出了大模型发展的一条新路？

降低模型推理成本

深度求索一直是国内AI版图上位置相对独特的一家——它是唯一没有做2C（面向个人消费者）应用的公司，选择开源路线，至今没有融过资。

去年5月，深度求索发布DeepSeek-V2，以其创新的模型架构和史无前例的性价比爆火。模型推理成本被降至每百万Tokens（大模型用来表示自然语言文本的单位）仅1元钱，约等于开源大模型Llama3 70B的七分之一，GPT-4 Turbo的七十分之一，引发字节、阿里、百度等企业的模型降价潮。

个中关节在于，DeepSeek提出的MLA（多头潜在注意力机制）架构和DeepSeekMoESparse（采用稀疏结构的混合专家模型）结构，大幅降低了模型的计算量和显存占用，实现了高效推理和经济高效的训练。

简单来说，模型压缩、专家并行训练、FP8混合精度训练、数据蒸馏与算法优化等一系列创新技术大幅降低了V3模型成本。作为新兴的低精度训练方法，FP8技术通过减少数据表示所需的位数，显著降低了内存占用和计算需求。据报道，目前，谷歌等已将这项技术引入模型训练与推理中。

深度科技研究院院长张孝荣在接受媒体采访时说，DeepSeek的“出圈”是对其在大模型技术上的突破和创新的认可，其通过优化算法和工程实践，实现高性能与低成本的平衡。DeepSeek为整个行业的发展注入活力，也对大模型的技术路径和工程实践产生积极影响，推动高效训练、模型轻量化和工程优化。

有业内人士分析，V3在架构创新、训练效率和推理性能方面展现巨大潜力，尤其在成本和性能的平衡方面作出重要贡献。不过，与此同时，也仍有许多挑战需要解决，如需进一步扩展上下文长度、优化多模态数据处理等。未来的研究方向包括提升模型的推理速度、完善更高效的硬件架构设计，以及增强多模态学习和生成能力。

不堆算力创新算法

大参数、大算力、大投入，这条已经被验证行之有效的ChatGPT路径，实则是绝大部分创业公司难以承受之重。

据报道，仍处于研发过程中的GPT-5，已进行过至少两轮训练，每轮训练耗时数月，一轮计算成本接近5亿美元。一年半过去，GPT-5仍未问世。这意味着，新一代通用大模型的训练成本已达到十多亿美元甚至更高。未来这一数字可能持续攀升。

规模定律（Scaling law）是指在训练大模型时，数据量、参数量和计算资源越多，训练出的模型能力和效果越好。然而，一段时间以来，行业对规模定律可持续性的疑问不绝于耳。

V3的出现提供了新的解法。“Scaling Law不只停留在预训练阶段，而是往后训练，尤其是注重推理领域的后训练集、强化学习等领域扩展。”智源研究院副院长兼总工程师林咏华接受科技日报记者采访时说，这一点在国外以OpenAI o1发布为标志，国内则有DeepSeek使用强化学习训练发布DeepSeek R1这个具有很强挖掘和激活能力的模型。

在林咏华看来，V3的发布，也印证了利用R1可以很好进行能力提升。

行业相关探索还有很多，如Kimi将强化学习用到更多搜索场景，发布以逻辑思考和深度思考为核心功能的数学模型K0-math；蚂蚁技术研究院建立强化学习实验室，围绕如何在后训练及强化学习上进行更多模型能力的探索。林咏华期待，未来不仅是靠堆砌更多算力、参数和数据，而是靠真正的算法创新，持续在后训练阶段帮助模型提升基础能力。

值得注意的是，“省钱模式开启”并不意味着算力式微。

V3发布后，360集团创始人周鸿祎发文称赞“DeepSeek的进步对推动中国AI产业发展是极大利好”，但他也认为，这并非说中国AI发展不需要高端算力芯片。囤显卡建算力集群依旧必要，因为目前预训练算力需求或许没那么大，但像慢思考这类复杂推理模型对推理算力需求大，文生图、文生视频的应用也需消耗大量算力资源。巨头们提供AI云服务，构建庞大算力基础必不可少，这与 DeepSeek 降低训练算力需求是两回事，两者并不矛盾。

一位行业专家在接受记者采访时认为，2025年，大模型行业会进一步收敛，这种收敛既包括技术层面，也包括厂商层面。进入“百模大战”后期，要进一步提高模型计算效率，降低推理成本，对计算的架构分布、利用效率等都提出更为精细化的要求。

“烧钱”不是唯一逻辑

深度求索创始人梁文锋在金融行业征战已久。他成立的幻方量化早在2019年就开始大手笔投入深度学习训练平台。2023年7月，梁文锋创立深度求索，专注AI大模型的研究和开发。

据报道，包括梁文锋在内，深度求索仅有139名工程师和研究人员。在外界看来，这是一支“神秘的东方力量”。

但在一次采访中，梁文锋曾透露，深度求索并没有什么高深莫测的奇才，团队都是国内顶尖高校的应届毕业生，没毕业的博四、博五实习生，还有一些毕业才几年的年轻人。他特别提及，“V2模型没有海外回来的人，都是本土的”。

他也曾在访谈中说，过去30多年的IT浪潮，中国基本上扮演的是追随者角色，“随着经济的发展，中国也应该逐步成为技术创新的主要贡献者”。如今，V3的横空出世贡献了一个更高效率、更低成本的大模型发展样本，也让AI行业看到一种可能：虽然训练大模型依然需要大规模显卡集群，但“烧钱”不是行业唯一的逻辑，也并不是谁烧钱多，谁就注定赢得一切。

对此，周鸿祎评论道，V3用2000块卡做到了万卡集群才能做到的事。用这种极致训练方法训练专业大模型，算力成本会进一步降低，促使中国AI在专业、垂直、场景、行业大模型上更快普及。

记者3月18日从安徽明天氢能科技股份有限公司（以下简称明天氢能）获悉，国家电网近日向明天氢能及董事长王朝云分别授予科学技术进步奖一等奖，获奖项目为“大规模氢电一体化站关键技术、核心装备及记者3月18日从兰州大学获悉，该校动物医学与生物安全学院郑海学教授团队解析了非洲猪瘟病毒（ASFV）在猪体内感染的靶细胞，以及在靶细胞内延长感染的机制。这项研究系统阐明了ASFV感染的细胞嗜性、 3月18日，伴随着搬运车的轰鸣声，全国首个大规模清洁能源特高压直流输电工程的送端±800千伏特高压祁连换流站迎来了一位“新成员”——1号调相机转子，该换流站第7次年度检修工作再打一局游戏就睡，再刷几个视频就睡，终于放下手机，关灯睡觉了……结果翻来覆去睡不着，半夜醒来再也睡不着，为什么明明睡着了，睡眠质量却不高？3月21日是世界睡眠日，最新发布的《2024中国据一项在本周举行的美国心脏协会会议上提交的新研究，每天进食时间控制在8小时内的间歇性禁食方法可能与心脏病死亡风险上升相关。近年来越来越流行的间歇性禁食指限制进食时间，在每天或每周的 21世纪经济报道记者石恩泽深圳报道操作系统似乎对地理入迷。鸿蒙和深圳，就像Windows和西雅图，也似Linux和赫尔辛基。这是地理与技术的紧密交融。深圳，可以说是鸿蒙的诞生之地，在全球科。

本文链接：深度求索大模型：“花小钱办大事”http://www.sushuapos.com/show-2-10150-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：快手年货节促消费，近2.2万主播商品交易总额增速超一倍

下一篇：科技让环保执法有力度有温度

深度求索大模型：“花小钱办大事”

热门资讯

推荐资讯

科技最热文章