设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

21观察丨“东方神秘力量”再爆火 AI竞赛崛起中国创新势力

2024-12-30 10:31:15 来源:

21世纪经济报道记者孔海丽 北京报道QJ6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

DeepSeek再次爆火。QJ6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

近日,国内AI初创公司DeepSeek发布了新一代大语言模型DeepSeek-V3,同时宣布开源。在多项基准测试中,V3的成绩超越了主流开源模型,并和世界顶尖的闭源模型不分伯仲。QJ6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

更重要的是,V3的训练成本极低,仅为GPT-4o的二十分之一;售价也低,输入+输出价格约为GPT-4o的十分之一。不过其目前不支持多模态输入输出。QJ6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

DeepSeek是量化资管公司幻方旗下企业,成立于2023年7月。QJ6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

被冠以“AI界高效低价典范”的DeepSeek,给当前的人工智能技术与发展路径提供了一个新的方向,贡献了AI竞赛中的中国力量。QJ6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

V3不仅在人工智能界产生轰动效应,也因它的母公司是知名量化基金公司,而在资本市场引发热烈讨论。QJ6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

另据报道,近期小米正在搭建GPU万卡集群,雷军亲自以千万年薪挖来了DeepSeek-V2关键开发人员之一的95后罗福莉,后者被誉为“AI天才少女”。QJ6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

DeepSeek的“暴力美学”

多个实测表明,数学基准(MATH 500)和AIME 2024测试方面,V3超越了当前国际主流大模型Llama 3.1-405B、Claude-3.5-Sonnet和GPT-4o;代码能力(Codeforces 基准),比国外主流大模型高出约30分;软件工程(SWE-bench Verified)和知识问答方面,略逊于Claude-3.5-Sonnet。QJ6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

因此,DeepSeek的技术论文自豪地宣称,“综合评估表明,DeepSeek-V3-Base已经成为目前可用的最强大的开源基础模型,特别是在代码和数学方面。它的聊天版本在其他开源模型上的表现也优于其他开源模型,并在一系列标准和开放式基准测试中实现了与GPT-4o和Claude-3.5-Sonnet等领先闭源模型的性能相当。”QJ6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

更重要的是,这一成就,是在极低的训练成本下取得的。QJ6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

DeepSeek在其53页的技术论文披露:“我们的预训练阶段在不到两个月的时间内完成,成本为2664K GPU小时。结合119K GPU小时的上下文长度扩展和5KGPU小时的后训练,DeepSeek-V3的完整训练成本仅为2.788M GPU小时。假设H800 GPU的租金为每GPU小时2美元,我们的总训练成本仅为557万美元。”QJ6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Anthropic首席执行官达里奥·阿莫迪此前透露,GPT-4o的模型训练成本约为1亿美元。而仅仅是训练一个7B的Llama 2,就要花费76万美元。QJ6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

也就是说, DeepSeek-V3的训练成本仅为同性能模型的十几分之一。这让整个AI界都为之震惊。QJ6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

据报道,仍处于研发过程中的GPT-5,至少已进行过两轮训练,每轮训练耗时数月,仅一轮计算成本就接近5亿美元。一年半过去,GPT-5仍未问世。这意味着,新一代通用大模型的训练成本已达到十多亿美元甚至更高。马斯克旗下的xAI刚完成60亿美元融资,重要开支之一是将数据中心Colossus的规模扩大一倍,GPU数量达到20万颗。QJ6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

按照这种训练路径,未来三年内,AI大模型的训练成本将上升至100亿美元甚至上不封顶。正是在这种背景之下,一段时间以来AI界产生了对Scaling law的质疑。QJ6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

GPT-5难产,OpenAI转向了另一条发展路径:推理模型。并且很快产生成果:令人惊艳的o1推理模型,以及刚发布的o3推理模型。而o3的卓越表现,让部分专家惊呼,在前往AGI的路上已经没有了障碍。QJ6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

人工智能初创公司深受启迪,并紧紧跟随。前不久刚从硅谷考察回来的零一万物创始人李开复说,过去大家觉得预训练做好就够了,一年以后(o1出现后)发现Post train(后训练)也同样重要。他透露说,很多AI公司都在向推理模型方面发展,5个月以后会有不少类似o1模型的能力出现在各个模型公司,包括零一万物,都在往o1方向狂奔。QJ6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

但DeepSeek-V3的出现,提供了新的可能。更短的时间,更高的效率,更低的成本,达到同等的水平,通用大语言模型的发展路径选择上,贡献了“中国版本”。QJ6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

新的变化已经发生

事实上,今年5月6日,DeepSeek发布DeepSeek-V2开源MoE模型,就以其高效性能在全球AI界掀起了一波热度。而其API接口价格与同类产品相比断崖式定为每百万tokens输入1元、输出2元(32K上下文),仅为GPT-4-Turbo的近百分之一。QJ6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“价格屠夫”的杀入,令智谱AI、字节跳动、阿里云、百度、腾讯云旗下大模型随后不得不跟进降价。而且腾讯和百度宣布几款大模型产品免费。虽然有人将DeepSeek-V2称为“AI界的拼多多”,但这个比喻不太恰当,因为二者几乎没有共性。QJ6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

DeepSeek-V3的API定价提高到输入2元/M tokens,输出为8元/M tokens(45天的价格优惠期后),虽然比V2大幅上涨,但也只相当于Claude-3.5-Sonnet费用的1/53,后者每百万tokens输入3美元、输出15美元。QJ6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

根据记者近两天对AI从业者的采访,DeepSeek-V3的出现,为业界提供了新的启发。QJ6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

其一,大模型研发,存在多种可能的发展路径。QJ6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

ChatGPT走的是大参数、大算力、大投入的路子,对算力和资金的要求极高,这种资源消耗是绝大多数创业公司无法支撑的。即使是OpenAI、Anthropic融资较丰沛的公司,也面临投资回报的商业化难题。QJ6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

推理模型是另一条路子。o1、o3的成果,证明这条路也是可行的。但同样,它也是建立于相对高昂的算力和资金成本基础上,尤其是算力。QJ6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

DeepSeek-V3是第三条路径。与当前大模型训练动辄要求万卡集成相比,它只用2000张A100 GPU训练,就实现了与GPT-4o和Claude-3.5-Sonnet几乎等效的成果,不能不令人敬佩。QJ6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一位在硅谷从事AI研究的华人工程师告诉21世纪经济报道记者,不排除还有更多的路径选择,比如V3的MLA架构、MoESparse结构与o3的推理能力相结合,可能产生新的大模型范式。如果实现,那将是令人惊异的。QJ6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

其二,人工智能竞争,中国不仅仅是跟随者,而是正在大幅提升创新能力。QJ6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

其实V2发布时,硅谷就惊讶地称之为“来自东方的神秘力量”。DeepSeek创始人梁文锋今年7月在接受媒体采访时说,硅谷习惯于将中国AI公司视为follow的角色,当一个中国公司以创新贡献者的身份,加入到他们游戏里去,而且表现优异时,他们就很震惊。QJ6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

梁文锋认为,更多的投入并不一定产生更多的创新,否则大厂可以把所有的创新包揽了。研究和技术创新将永远是DeepSeek第一优先级。值得注意的是,根据业内专家测算,DeepSeek在V2、V3上并不亏钱。QJ6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

V3获得硅谷一批知名AI大佬的点赞。Lepton AI创始人、阿里巴巴原副总裁贾扬清表示,DeepSeek是智慧和实用主义的体现:在有限的计算资源和人力条件下,通过聪明的研究产生最好的结果。这是一句相当中肯的评价。QJ6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

无独有偶。宇树科技近日发布最新的Unitree B2-W机器狗产品视频:托马斯全旋、侧空翻、360°跳跃转体、2.8米凌空飞跃,甚至能驮着一名成年男子稳步行走。这几天,技术讨论园区里到处可见对这家前沿中国机器人企业的欢呼声,有评论称其技能足以“吊打”当今最先进的机器人公司波士顿动力。上周还在A股市场掀起了一阵“宇树科技概念”上涨潮。QJ6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

其三,创新从来不是单维度、单向度的,AI颠覆式创新正在成为可能。QJ6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

研发出ChatGPT的OpenAI确实了不起,它开启了人工智能的新一轮浪潮。但OpenAI也不是神,也有发展方向的障碍,有融资的难题,有路径选择的犹豫。QJ6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

过去两三年,AI界一个流行的看法是,如果说硅谷企业擅长从0到1,那我们则擅长从1到10,因为中国有宽广的应用市场。但梁文锋认为,当前阶段仍是AI技术创新的爆发期,而不是应用的爆发期。QJ6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

从理性的角度,需要承认我们与OpenAI、Anthropic、DeepMind这些世界先进AI公司仍存在较大的差距。比如,即使是代表闭源大模型最前沿水平的V3,多项性能表现与GPT-4o相近,那也是后者7个月前的技术水平;而OpenAI这几个月已连续推出o1、o3这类新的“变异”物种。更何况,其他大多数的模型产品,放在多语言、多模态的国际视野看,差距要更大。QJ6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

但这一轮人工智能浪潮之所以更加令人期待,就是因为,它带来的革命性想象力甚至要超越互联网之于传统经济的变革力量。正如梁文锋所说,中国产业结构的调整升级,会更依赖硬核科技的创新。在半导体、大模型等领域,远未触达技术天花板,前所未有的机会在等待着中国企业,那些带来AI颠覆性创新产品或方案模式的公司,就非常可能成为下一个伟大的企业。QJ6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

前述硅谷华人工程师感慨地说,再伟大的企业,都不敢止步不前,坐享其成。QJ6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

5年前,谁会想到,英特尔会沦落到传闻要被收购的命运?而今天别看英伟达如日中天、GPU供不应求,但如果量子芯片大规模商用的时间表大大缩短,或者像V3这样不再依赖于万卡集成做训练研发,而它继续固守原有发展路径,那么所谓的“英伟达泡沫”提前破灭也是完全可能发生的。QJ6速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本文链接:21观察丨“东方神秘力量”再爆火 AI竞赛崛起中国创新势力http://www.sushuapos.com/show-2-9926-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 南财数据周报(28期):中央推动建设综合交通大数据中心体系,深化数据资源治理

下一篇: 机器人何以“成人”? 对话优必选CEO周剑:软件算法成为人形机器人发展关键丨2024年终特刊

热门资讯

推荐资讯

  • 得力集团就“辞退跛脚员工”致歉,将问责涉事人员

      中新经纬9月30日电 据得力集团官方微博30日消息,得力集团就“员工因跛脚入职当天被辞退”致歉。  得力集团在声明中表示,昨日,网络上出现关于“因跛脚入职当天被辞退”的

  • 上汽集团召回9.84万辆科莱威纯电动汽车

      中新经纬9月30日电 据国家市场监督管理总局网站消息,日前,上海汽车集团股份有限公司根据《缺陷汽车产品召回管理条例》和《缺陷汽车产品召回管理条例实施办法》的要求,向

  • 六个全国第一,青海绿色算力何以弯道超车?

      中新经纬9月30日电 (袁媛)随着人工智能和大数据应用的兴起,算力需求呈现爆发式增长,而青海省以其独特的地理与能源禀赋逐渐走入全国数字经济的视野。9月,青海西宁宣布建成

  • 易方达高管变动:张清华离任副总,年内多人职务调整

      中新经纬9月30日电 (薛宇飞)易方达基金30日公告称,因工作调整原因,公司副总经理张清华离任,并将专注于投资管理工作。  今年以来,易方达基金已有多位副总经理的职务发生变

  • 9月制造业PMI为49.8%,景气水平继续改善

      中新经纬9月30日电 国家统计局网站30日公布2025年9月中国采购经理指数运行情况。  中国制造业采购经理指数运行情况方面,9月份,制造业采购经理指数(PMI)为49.8%,比上月上

  • A股三大指数集体高开 有色金属板块领涨

      中新经纬9月30日电 今天是节前A股最后一个交易日,三大指数集体高开,上证指数涨0.19%,报3869.70点;深证成指涨0.19%,报13504.65点;创业板指涨0.04%,报3239.33点。  来源:Wind 

  • 华储网:10月11日收储1300吨冻牛羊肉

      中新经纬9月30日电 30日,华储网发布关于2025年第5次中央储备冻牛羊肉收储竞价交易有关事项的通知。  来源:华储网  根据通知,本次收储交易1300吨,收储地点为西藏地区承

  • 银行渠道本周在售纯固收理财产品榜单(10/13-10/19)

    编者按:当前银行理财货架产品琳琅满目,诸如“增强”“稳健”“均衡”等名称相近、特征模糊的产品层出不穷,投资者应如何甄别与选择?为降低投资

  • “互换通”今日起每日净限额提高至450亿元

      “互换通”今日起每日净限额提高至450亿元  本报记者 韩 昱  10月13日,“互换通”运行机制迎来优化。  此前的9月25日,中国外汇交易中心发布消息称,将在中国人民银行

  • 前三季度中国加工贸易进出口同比增6.9%

      中新经纬10月13日电 13日,国新办就2025年前三季度进出口情况举行新闻发布会。海关总署副署长王军在发布会上介绍,今年前三季度,加工贸易进出口6.18万亿元,同比增长了6.9%。

  • 恒生科指半日跌4.54% 大型科技股集体遭挫

      中新经纬10月13日电 13日,港股主要股指低开低走。截至午盘,恒生指数跌3.49%,恒生科技指数跌4.54%。来源:Wind  盘面上,大型科技股集体下跌,哔哩哔哩、小米集团跌超7%,快手跌

  • 产品质量违法典型案例公布:上海通盈鞋业销售不合格童鞋等被点名

      中新经纬10月12日电 “市说新语”微信号12日消息,为强化产品质量安全监管,维护广大消费者合法权益,各地市场监管部门依法履职尽责,查办一批产品质量领域违法案件,现选取一批

  • 日榜
  • 周榜
  • 月榜