设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

深度求索大模型:“花小钱办大事”

发布时间: 来源: 科技日报

一个来自中国的开源模型,在开年之际聚焦了人工智能(AI)行业的目光。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

日前,杭州深度求索人工智能基础技术研究有限公司(以下简称“深度求索”)上线并同步开源DeepSeek-V3模型,同时公布长达53页的技术报告,介绍关键技术和训练细节。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

和很多语焉不详的报告相比,这份报告真正做到了开源。其中最抓人眼球的部分是,V3模型能力大幅升级,但训练仅仅花费557.6万美元,仅用2048块H800显卡,耗时不到两个月。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

美国人工智能初创公司Anthropic首席执行官达里奥·阿莫迪曾透露,GPT-4o的模型训练成本约为1亿美元。美国开放人工智能研究中心(OpenAI)创始成员之一安德烈·卡帕西点评,DeepSeek-V3让在有限算力预算内进行模型预训练这件事变得容易。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

深度求索如何实现“花小钱办大事”?它是否走出了大模型发展的一条新路?Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

降低模型推理成本Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

深度求索一直是国内AI版图上位置相对独特的一家——它是唯一没有做2C(面向个人消费者)应用的公司,选择开源路线,至今没有融过资。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

去年5月,深度求索发布DeepSeek-V2,以其创新的模型架构和史无前例的性价比爆火。模型推理成本被降至每百万Tokens(大模型用来表示自然语言文本的单位)仅1元钱,约等于开源大模型Llama3 70B的七分之一,GPT-4 Turbo的七十分之一,引发字节、阿里、百度等企业的模型降价潮。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

个中关节在于,DeepSeek提出的MLA(多头潜在注意力机制)架构和DeepSeekMoESparse(采用稀疏结构的混合专家模型)结构,大幅降低了模型的计算量和显存占用,实现了高效推理和经济高效的训练。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

简单来说,模型压缩、专家并行训练、FP8混合精度训练、数据蒸馏与算法优化等一系列创新技术大幅降低了V3模型成本。作为新兴的低精度训练方法,FP8技术通过减少数据表示所需的位数,显著降低了内存占用和计算需求。据报道,目前,谷歌等已将这项技术引入模型训练与推理中。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

深度科技研究院院长张孝荣在接受媒体采访时说,DeepSeek的“出圈”是对其在大模型技术上的突破和创新的认可,其通过优化算法和工程实践,实现高性能与低成本的平衡。DeepSeek为整个行业的发展注入活力,也对大模型的技术路径和工程实践产生积极影响,推动高效训练、模型轻量化和工程优化。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

有业内人士分析,V3在架构创新、训练效率和推理性能方面展现巨大潜力,尤其在成本和性能的平衡方面作出重要贡献。不过,与此同时,也仍有许多挑战需要解决,如需进一步扩展上下文长度、优化多模态数据处理等。未来的研究方向包括提升模型的推理速度、完善更高效的硬件架构设计,以及增强多模态学习和生成能力。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不堆算力创新算法Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大参数、大算力、大投入,这条已经被验证行之有效的ChatGPT路径,实则是绝大部分创业公司难以承受之重。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

据报道,仍处于研发过程中的GPT-5,已进行过至少两轮训练,每轮训练耗时数月,一轮计算成本接近5亿美元。一年半过去,GPT-5仍未问世。这意味着,新一代通用大模型的训练成本已达到十多亿美元甚至更高。未来这一数字可能持续攀升。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

规模定律(Scaling law)是指在训练大模型时,数据量、参数量和计算资源越多,训练出的模型能力和效果越好。然而,一段时间以来,行业对规模定律可持续性的疑问不绝于耳。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

V3的出现提供了新的解法。“Scaling Law不只停留在预训练阶段,而是往后训练,尤其是注重推理领域的后训练集、强化学习等领域扩展。”智源研究院副院长兼总工程师林咏华接受科技日报记者采访时说,这一点在国外以OpenAI o1发布为标志,国内则有DeepSeek使用强化学习训练发布DeepSeek R1这个具有很强挖掘和激活能力的模型。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在林咏华看来,V3的发布,也印证了利用R1可以很好进行能力提升。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

行业相关探索还有很多,如Kimi将强化学习用到更多搜索场景,发布以逻辑思考和深度思考为核心功能的数学模型K0-math;蚂蚁技术研究院建立强化学习实验室,围绕如何在后训练及强化学习上进行更多模型能力的探索。林咏华期待,未来不仅是靠堆砌更多算力、参数和数据,而是靠真正的算法创新,持续在后训练阶段帮助模型提升基础能力。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

值得注意的是,“省钱模式开启”并不意味着算力式微。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

V3发布后,360集团创始人周鸿祎发文称赞“DeepSeek的进步对推动中国AI产业发展是极大利好”,但他也认为,这并非说中国AI发展不需要高端算力芯片。囤显卡建算力集群依旧必要,因为目前预训练算力需求或许没那么大,但像慢思考这类复杂推理模型对推理算力需求大,文生图、文生视频的应用也需消耗大量算力资源。巨头们提供AI云服务,构建庞大算力基础必不可少,这与 DeepSeek 降低训练算力需求是两回事,两者并不矛盾。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一位行业专家在接受记者采访时认为,2025年,大模型行业会进一步收敛,这种收敛既包括技术层面,也包括厂商层面。进入“百模大战”后期,要进一步提高模型计算效率,降低推理成本,对计算的架构分布、利用效率等都提出更为精细化的要求。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“烧钱”不是唯一逻辑Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

深度求索创始人梁文锋在金融行业征战已久。他成立的幻方量化早在2019年就开始大手笔投入深度学习训练平台。2023年7月,梁文锋创立深度求索,专注AI大模型的研究和开发。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

据报道,包括梁文锋在内,深度求索仅有139名工程师和研究人员。在外界看来,这是一支“神秘的东方力量”。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

但在一次采访中,梁文锋曾透露,深度求索并没有什么高深莫测的奇才,团队都是国内顶尖高校的应届毕业生,没毕业的博四、博五实习生,还有一些毕业才几年的年轻人。他特别提及,“V2模型没有海外回来的人,都是本土的”。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

他也曾在访谈中说,过去30多年的IT浪潮,中国基本上扮演的是追随者角色,“随着经济的发展,中国也应该逐步成为技术创新的主要贡献者”。如今,V3的横空出世贡献了一个更高效率、更低成本的大模型发展样本,也让AI行业看到一种可能:虽然训练大模型依然需要大规模显卡集群,但“烧钱”不是行业唯一的逻辑,也并不是谁烧钱多,谁就注定赢得一切。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

对此,周鸿祎评论道,V3用2000块卡做到了万卡集群才能做到的事。用这种极致训练方法训练专业大模型,算力成本会进一步降低,促使中国AI在专业、垂直、场景、行业大模型上更快普及。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一个来自中国的开源模型,在开年之际聚焦了人工智能(AI)行业的目光。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

日前,杭州深度求索人工智能基础技术研究有限公司(以下简称“深度求索”)上线并同步开源DeepSeek-V3模型,同时公布长达53页的技术报告,介绍关键技术和训练细节。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

和很多语焉不详的报告相比,这份报告真正做到了开源。其中最抓人眼球的部分是,V3模型能力大幅升级,但训练仅仅花费557.6万美元,仅用2048块H800显卡,耗时不到两个月。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

美国人工智能初创公司Anthropic首席执行官达里奥·阿莫迪曾透露,GPT-4o的模型训练成本约为1亿美元。美国开放人工智能研究中心(OpenAI)创始成员之一安德烈·卡帕西点评,DeepSeek-V3让在有限算力预算内进行模型预训练这件事变得容易。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

深度求索如何实现“花小钱办大事”?它是否走出了大模型发展的一条新路?Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

降低模型推理成本Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

深度求索一直是国内AI版图上位置相对独特的一家——它是唯一没有做2C(面向个人消费者)应用的公司,选择开源路线,至今没有融过资。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

去年5月,深度求索发布DeepSeek-V2,以其创新的模型架构和史无前例的性价比爆火。模型推理成本被降至每百万Tokens(大模型用来表示自然语言文本的单位)仅1元钱,约等于开源大模型Llama3 70B的七分之一,GPT-4 Turbo的七十分之一,引发字节、阿里、百度等企业的模型降价潮。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

个中关节在于,DeepSeek提出的MLA(多头潜在注意力机制)架构和DeepSeekMoESparse(采用稀疏结构的混合专家模型)结构,大幅降低了模型的计算量和显存占用,实现了高效推理和经济高效的训练。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

简单来说,模型压缩、专家并行训练、FP8混合精度训练、数据蒸馏与算法优化等一系列创新技术大幅降低了V3模型成本。作为新兴的低精度训练方法,FP8技术通过减少数据表示所需的位数,显著降低了内存占用和计算需求。据报道,目前,谷歌等已将这项技术引入模型训练与推理中。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

深度科技研究院院长张孝荣在接受媒体采访时说,DeepSeek的“出圈”是对其在大模型技术上的突破和创新的认可,其通过优化算法和工程实践,实现高性能与低成本的平衡。DeepSeek为整个行业的发展注入活力,也对大模型的技术路径和工程实践产生积极影响,推动高效训练、模型轻量化和工程优化。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

有业内人士分析,V3在架构创新、训练效率和推理性能方面展现巨大潜力,尤其在成本和性能的平衡方面作出重要贡献。不过,与此同时,也仍有许多挑战需要解决,如需进一步扩展上下文长度、优化多模态数据处理等。未来的研究方向包括提升模型的推理速度、完善更高效的硬件架构设计,以及增强多模态学习和生成能力。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不堆算力创新算法Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大参数、大算力、大投入,这条已经被验证行之有效的ChatGPT路径,实则是绝大部分创业公司难以承受之重。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

据报道,仍处于研发过程中的GPT-5,已进行过至少两轮训练,每轮训练耗时数月,一轮计算成本接近5亿美元。一年半过去,GPT-5仍未问世。这意味着,新一代通用大模型的训练成本已达到十多亿美元甚至更高。未来这一数字可能持续攀升。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

规模定律(Scaling law)是指在训练大模型时,数据量、参数量和计算资源越多,训练出的模型能力和效果越好。然而,一段时间以来,行业对规模定律可持续性的疑问不绝于耳。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

V3的出现提供了新的解法。“Scaling Law不只停留在预训练阶段,而是往后训练,尤其是注重推理领域的后训练集、强化学习等领域扩展。”智源研究院副院长兼总工程师林咏华接受科技日报记者采访时说,这一点在国外以OpenAI o1发布为标志,国内则有DeepSeek使用强化学习训练发布DeepSeek R1这个具有很强挖掘和激活能力的模型。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在林咏华看来,V3的发布,也印证了利用R1可以很好进行能力提升。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

行业相关探索还有很多,如Kimi将强化学习用到更多搜索场景,发布以逻辑思考和深度思考为核心功能的数学模型K0-math;蚂蚁技术研究院建立强化学习实验室,围绕如何在后训练及强化学习上进行更多模型能力的探索。林咏华期待,未来不仅是靠堆砌更多算力、参数和数据,而是靠真正的算法创新,持续在后训练阶段帮助模型提升基础能力。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

值得注意的是,“省钱模式开启”并不意味着算力式微。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

V3发布后,360集团创始人周鸿祎发文称赞“DeepSeek的进步对推动中国AI产业发展是极大利好”,但他也认为,这并非说中国AI发展不需要高端算力芯片。囤显卡建算力集群依旧必要,因为目前预训练算力需求或许没那么大,但像慢思考这类复杂推理模型对推理算力需求大,文生图、文生视频的应用也需消耗大量算力资源。巨头们提供AI云服务,构建庞大算力基础必不可少,这与 DeepSeek 降低训练算力需求是两回事,两者并不矛盾。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一位行业专家在接受记者采访时认为,2025年,大模型行业会进一步收敛,这种收敛既包括技术层面,也包括厂商层面。进入“百模大战”后期,要进一步提高模型计算效率,降低推理成本,对计算的架构分布、利用效率等都提出更为精细化的要求。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“烧钱”不是唯一逻辑Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

深度求索创始人梁文锋在金融行业征战已久。他成立的幻方量化早在2019年就开始大手笔投入深度学习训练平台。2023年7月,梁文锋创立深度求索,专注AI大模型的研究和开发。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

据报道,包括梁文锋在内,深度求索仅有139名工程师和研究人员。在外界看来,这是一支“神秘的东方力量”。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

但在一次采访中,梁文锋曾透露,深度求索并没有什么高深莫测的奇才,团队都是国内顶尖高校的应届毕业生,没毕业的博四、博五实习生,还有一些毕业才几年的年轻人。他特别提及,“V2模型没有海外回来的人,都是本土的”。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

他也曾在访谈中说,过去30多年的IT浪潮,中国基本上扮演的是追随者角色,“随着经济的发展,中国也应该逐步成为技术创新的主要贡献者”。如今,V3的横空出世贡献了一个更高效率、更低成本的大模型发展样本,也让AI行业看到一种可能:虽然训练大模型依然需要大规模显卡集群,但“烧钱”不是行业唯一的逻辑,也并不是谁烧钱多,谁就注定赢得一切。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

对此,周鸿祎评论道,V3用2000块卡做到了万卡集群才能做到的事。用这种极致训练方法训练专业大模型,算力成本会进一步降低,促使中国AI在专业、垂直、场景、行业大模型上更快普及。Kkq速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

近日,国家知识产权局等五部门联合印发了《专利产业化促进中小企业成长计划实施方案》(以下简称《实施方案》)。《实施方案》提出,到2025年底,中小企业知识产权意识和专利转化运用能力得到普遍提升 据《日本经济新闻》3月19日报道,东京大学副教授坂本健太郎等人研究发现,海龟下潜时心率将急剧下降。海龟与鲸等哺乳类动物同样,心率随下潜深度加深而下降,特别是在下潜深度超过140米时,一分钟心跳 记者3月20日从中国科学技术大学获悉,该校郭光灿院士团队在量子态分辨研究中取得重要进展。研究组在最小资源消耗的量子态分辨问题中首次提出了全局最优自适应策略,并发展了自适应集体测量实验 3月22日消息,中国互联网络信息中心(CNNIC)今天发布了《中国互联网络变化状况计算报告》。《报告》显示,截至2023年12月,我国网民规模达10.92亿人,较2022年12月新增网民2480万人,互联网普及率达77.5%。截 俄罗斯国家航天集团23日发布消息说,俄当天成功发射了“联盟MS-25”载人飞船。消息说,莫斯科时间23日15时36分(北京时间20时36分),“联盟MS-25”载人飞船搭乘“联盟-2.1a”运载火箭从哈萨克斯坦境 3月24日是第29个世界防治结核病日,我国的宣传主题是“你我共同努力,终结结核流行”。在北京大学社会化媒体研究中心21日举办的“技术升级,加速我国终结结核流行进程”主题沙龙上,中国疾控中心结 。

本文链接:深度求索大模型:“花小钱办大事”http://www.sushuapos.com/show-2-10150-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 快手年货节促消费,近2.2万主播商品交易总额增速超一倍

下一篇: 科技让环保执法有力度有温度

热门资讯

  • 云南首批621座变电站实现人工智能巡检

    “远方巡视启动!”南方电网云南保山220千伏大寨变电站日前启动首次全套智能巡视,109个摄像头快速旋转,10套在线监测系统开始收集数据,变电站的无人机机

  • 多功能金纳米花颗粒 可促进感染性组织修复

    3月17日,记者从海南大学获悉,该校化学化工学院副教授李萌婷与相关研究团队合作,合成了多功能复合金纳米花颗粒。该颗粒配合温和光热、光动力、药物控

  • 诺贝尔化学奖获得者阿龙・切哈诺沃:做研究保持好奇心很重要

      诺贝尔化学奖获得者阿龙・切哈诺沃:做研究保持好奇心很重要  中新网宁波3月17日电(林波)对于学生而言,如何找到研究的信心和价值,让他们有继续下去的动力?  “做研究保

  • 全国首个模拟验证机场开工

    记者日前获悉,位于四川成都未来科技城应用性科创区的民航科技创新示范区(B区)航站楼项目,近日取得施工许可证。这也意味着全国首个模拟验证机场开工。

  • 借AI“慧眼”鉴别可疑论文图片

    今年1月,英国分子生物学家肖尔托·戴维发表文章,指控美国哈佛大学医学院附属丹娜-法伯癌症研究所科学家通过修改图片伪造数据。随后该研究所正

  • 优质双季超级稻丰产增效技术 研发与集成示范项目启动

    近日,我国“主要作物丰产增效科技创新工程”重点专项“优质双季超级稻丰产增效技术研发与集成示范”项目,在湖南岳阳宣布启动。据了解,该项目主要聚焦

  • 国家工程师丨锻造能“听”清眼疾的高精设备

    眼眸深邃似海、璨如星河,中国医学科学院生物医学工程研究所眼科诊疗技术研发团队(以下简称“团队”)正是眼眸“侦探”。该团队不久前被授予“国家卓越

  • 世界睡眠日:别让你的良好睡眠被手机夺走

    再打一局游戏就睡,再刷几个视频就睡,终于放下手机,关灯睡觉了……结果翻来覆去睡不着,半夜醒来再也睡不着,为什么明明睡着了,睡眠质量却不高

  • AI+智能家居赋能健康睡眠

    3月21日是第二十五个“世界睡眠日”,中国睡眠研究会联合慕思集团在北京正式发布《2024情绪与健康睡眠白皮书》(以下简称《白皮书》)。《白皮书》指出,

  • Kimi累趴下了,券商仍看好

    21世纪经济报道记者雷晨 北京报道近日,国内AI领域的明星产品——Kimi智能助手,因流量激增遭遇了短暂的服务中断。月之暗面随后发布公告,对此

  • 中国气象局发布大地磁暴预警,可能会看到极光

    记者从中国气象局了解到,3月24日、25日和26日三天,将可能出现地磁活动,其中3月25日可能发生中等以上地磁暴甚至大地磁暴,预计地磁活动将持续到26日。在

  • 诺基亚手机“掉队”带来的启示

    作为功能机时代的霸主,诺基亚手机曾经创造了巨大的辉煌,但也因错失智能手机发展机遇而“掉队”。近期,外媒Visual Capitalist统计了有史以来最畅销的1

推荐资讯

  • 日榜
  • 周榜
  • 月榜