设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

黄仁勋的英伟达帝国并非牢不可破

发布时间: 2024-03-27 17:33:27 来源:

  拆解AI|黄仁勋的英伟达帝国并非牢不可破6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  王沁6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  在3.18-3.21英伟达GTC大会上,英伟达CEO黄仁勋得到了流行明星式的追捧与崇拜。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  GTC的第一天,黄仁勋如约发布了新一代Blackwell架构的芯片B200。与目前训练AI最强芯片H100相比,B200的训练性能提升4倍,推理性能提升30倍,售价在3-4万美元之间。在AI大模型的战场上,卖AI芯片的英伟达是最大的军火商,现在B200无疑是火力更猛的炮弹。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  英伟达的芯片之路起起伏伏:靠游戏显卡打下最初的地盘,2007年进军移动芯片效果不佳,2016年以来拥抱加密货币、拥抱元宇宙,凭借加密货币的牛市,英伟达在2016-2018年市值攀升十倍,但也随着加密货币的寒冬而股价跳水。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  2022年的秋天,美国芯片管制,挖矿时代终结。当英伟达当年11月财报显示显卡营收下滑、股价同比下跌近半时,没人能预料到,2022年11月底ChatGPT一声炮响,不仅引领了生成式AI的新浪潮,让全世界都认识了OpenAI,更是把军火商英伟达送上了神坛。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  但黄仁勋自己预料到了,也一直在准备AI的爆发――2022年3月英伟达发布了H100芯片,距离OpenAI发布ChatGPT还有大半年,H100就专门针对AI大模型训练做了优化。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  ChatGPT发布以来,英伟达股价一路上升。截至3月22日美股收盘,英伟达的市值已经超过了2.35万亿美元,排名全球上市公司市值第三,距离2.66万亿美元的苹果只有一步之遥。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  但英伟达的AI芯片帝国并非牢不可破。英伟达GPU原本就不是专门为了AI训练而设计,而是在通用的图片处理器上叠加各种为AI训练适配的性能,相比之下,Groq的LPU、谷歌的TPU从底层设计上都更加AI专用化。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  英伟达B200发布后,Groq团队(前谷歌TPU团队核心成员创立)在社交平台X上表示,自家的LPU芯片更快、功耗也更低;谷歌的TPU算力服务提供给了OpenAI的有力对手Anthropic;每年在数据中心上花费超500亿美元的微软,在联合AMD研发Maia 100 人工智能芯片;软银集团孙正义在撒钱造芯;3月21日三星宣布将在 2025 年初推出自己的人工智能加速器芯片。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  但英伟达有自己的护城河――CUDA软硬件协同技术。GPU的并行计算能适用于大语言模型的多维张量计算,程序员写的代码本来只能运行在CPU上,但通过CUDA的程序接口,能运行在GPU上。CUDA发布于2006年,早期只有CUDA提供了对并行计算的支持,通过规模效应,CUDA已经成为行业标准。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  就在GTC大会之前,英伟达试图禁止第三方公司兼容CUDA。这就像苹果的iOS系统一样,是英伟达最核心的护城河。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  3月20日,就在英伟达GTC大会期间,美国商务部宣布向英特尔提供195亿美元激励,包括85亿美元资助和110亿美元贷款担保,美国政府想通过巨额补贴将近几十年来迁往亚洲的芯片产业引回美国。中国商务部发言人则在3月21号表示,中国欢迎全球半导体企业来华投资合作,共促产业链稳定。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  尽管英伟达目前凭借GPU+NVlink+CUDA垄断了AI算力90%的市场,但在新的AI芯片公司想要弯道超车、变化诡谲的时局之下,英伟达还能保持自己的垄断吗?6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  先天缺陷、后天改良超车的GPU6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  AI芯片有多个技术路径。广义上讲,只要能运行人工智能算法的芯片都叫做AI芯片,但针对AI做了特殊加速设计的专用芯片效果会更好。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  GPU原本是用做图形处理,不是专用于人工智能场景,从这点上看GPU是有先天缺陷的。但GPU因其并行计算的特点,适用于大语言模型的多维张量计算,一步步走上了为了AI而改造之路。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  英伟达的改良方案很能担当起后来“核弹工厂”的称号:一方面堆砌算力、堆料。芯片的晶圆面积越做越大,从1997年的90平方mm到2015年之后的超过600平方mm。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  英伟达也一直擅长多卡互联,通过两张或更多显卡互联工作的方式,以实现翻倍甚至是数倍于单张显卡的性能输出。最新Blackwell架构的B200芯片也是如此,它并不是传统意义上的单一GPU,而是由两个紧密耦合的芯片组成。在NVLink Switch高速互联技术支持下,英伟达“大力出奇迹”地将72块B200连接在一起,最终成为“新一代计算单元”GB200 NVL72,“批发打包”成数据中心来卖卡。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  另一方面,通过“改良式创新”,来逐步解决GPU跟人工智能场景的不匹配问题。这些问题包括但不限于功耗、内存墙、带宽瓶颈、低精度计算、高速连接、特定模型优化……从2012年开始,英伟达加快了架构更新的速度,加上了各种针对AI训练的优化,如矩阵计算(Tensor Core 4.0)、提高精度、Transformer加速引擎等。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  而且,英伟达一直在追赶时代浪潮,拥抱加密货币、拥抱元宇宙、拥抱AI,既追求提高算力、软硬件协同的长期主义,也追求在每一次浪潮中找准盈利点。据36Kr报道,2018 年,英伟达 CFO 公开披露了自己依靠销售“矿卡”赚钱的事实,黄仁勋则更是在发言中透露出了自己对“挖矿”的兴趣,“英伟达实际上对用户购买 GPU 的用途有所把控,我们必须留意它(用户买显卡来挖矿)的存在,并保证充足的库存来应对”。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  据远川研究所报道,在生成式AI热潮之前,英伟达的毛利率常年维持在65%上下,而净利率通常只有30%。而今年Q2受高毛利的A100/A800/H100的拉动,毛利率站上70%,净利率更是高达45.81%。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  专为AI而生的芯片:TPU和LPU6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  相比之下,谷歌的TPU和Groq的LPU都更加专为AI而生。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  谷歌研发AI芯片其实比英伟达更早。2016年Google凭借AlphaGo战胜围棋冠军而惊艳世界,随后推出自研的专为AI而生的芯片TPU(Tensor Processing Unit),中文名叫做“张量处理单元”――“张量”即神经网络的基本单元,从芯片结构上就专为AI大模型训练设计。如果说英伟达对GPU的“魔改”是拆了东墙补西墙,那么TPU便是通过从根本上大幅降低存储和连接的需求,将芯片空间最大程度让渡给了计算。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  TPU 的主要任务是矩阵处理,矩阵是乘法和累加运算的组合。神经网络运算需要进行大量矩阵运算,GPU只能按部就班将矩阵计算拆解成多个向量的计算,每完成一组都需访问内存,保存这一层的结果,直到完成所有向量计算,再将每层结果组合得到输出值。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  而在TPU中,成千上万个计算单元被直接连接起来形成矩阵乘法阵列,作为计算核心,可以直接进行矩阵计算,除了最开始的加载数据和函数外无需再访问存储单元。这大大降低了访问频率,使得TPU的计算速度大大加快,能耗和物理空间占用也大大降低。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  谷歌并不对外出售TPU芯片,它仍然是英伟达的大客户之一,并继续大批量采购英伟达的GPU。但谷歌把TPU其部署到自家的云服务系统中,对外(比如Anthropic公司)提供AI算力服务,这无疑压缩了英伟达的潜在市场。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  而从谷歌TPU核心团队的离职人员,创建了Groq,其提出了一种全新的AI 芯片 LPU(Language Processing Unit,语言处理单元)。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  作为创业公司,Groq这个团队更加锋芒锐利,扬言称要三年之内超过英伟达。在英伟达GTC期间,Groq也在X上各种正面硬刚英伟达:说自家的LPU芯片速度更快,功耗更低,即使英伟达有再多软件也无法克服硬件瓶颈,仅当芯片(指英伟达芯片)架构复杂且难以高效编程时,才需要 CUDA……其中“当芯片架构复杂且难以高效编程时,才需要 CUDA”可谓直指英伟达GPU本质上是个堆料改良“缝合怪”的痛点。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  LPU最夸张的指标是推理速度。运行开源大模型Mixtral 8×7B-32k,速度约为每秒500个token;切换到Llama 2-7B,速度为每秒750个token;而使用更大的Llama 2-70B,速度可以达到每秒300个token。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  如果按照2个token相当于1个汉字的一般规律,那么使用英伟达H100芯片生成答案时,用户的阅读速度几乎可以跟上答案生成的速度,答案慢慢地展开下来。然而,使用 Groq 的芯片,生成答案就像用鼠标滚轮无意识地向下滚动网页一样快,页面眨眼间就过去了。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  长期以来,芯片的HBM内存所需的封装技术被代工巨头台积电垄断,而Groq则避开适用HBM内存,转而使用SRAM内存。SRAM 的优势在于速度快、延迟低。Groq 的芯片搭载了230MB 的 SRAM 来保证内存带宽,片上内存带宽达到了 80TB/s。在算力层面,Gorq 芯片的整型(8位)运算速度为 750TOPs,浮点(16位)运算速度则为 188TFLOPs。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  但Groq芯片是推理芯片,而不是训练芯片,不能用来训练大模型。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  Groq虽然宣称自己芯片的功耗更低,但是从单位成本算力来看,Groq芯片并不便宜。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  原 Meta 人工智能科学家、原阿里技术副总裁贾扬清做了一番估算,指出由于 Groq 的内存容量较小,在运行 LLaMa2 70B 模型时需要使用 305 张 Groq 卡,而使用 NVIDIA 的 H100 卡只需要 8 张。这相当于 Groq 的硬件成本大约是 H100 的 40 倍,而其能源成本则是 10 倍。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  而世界上的云计算厂商(亚马逊AWS、微软Azure、Google Cloud、阿里云和IBM)都在加紧研发制造自己的AI芯片。其中,微软给芯片行业的冲击或许会最大。微软每年在数据中心上的支出超过 500 亿美元。据报道,微软正在研发自己的 Maia AI 服务器芯片,今年将安装在数据中心,其正在开发的新型网卡也可以提高Maia芯片的性能。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  微软也在与英特尔联合起来造芯。据华尔街日报2月22日报道,微软首席执行官Satya Nadella在英特尔的一次活动上说,微软正在设计芯片,将在英特尔最先进的工厂之一制造。纳德拉没有具体说明英特尔将为其生产哪款芯片,但最近几个月微软一直在寻求加强芯片设计能力,包括去年推出的一款用于人工智能计算的新芯片。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  真正的护城河――软硬一体的CUDA6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  科技界没有永远的巨头,但英伟达在加深自己的护城河――CUDA软硬件协同系统。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  黄仁勋在GTC上宣称,英伟达其实是一家软件公司,为其他公司提供视觉计算核心技术,同时也是一家“综合性视觉计算和并行计算技术公司”。或许,黄仁勋对标的并不是芯片公司先驱,而是通过卖硬件来赚软件钱的苹果。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  CUDA提供了平台性的接口,让程序员用C语言、C++等语言写的代码,通过CUDA翻译成能运行在GPU上的指令,让原本程序里的一行指令,变成GPU上几十万、几百万个并行的小处理单元。这样能让图形设计的游戏编程者和人工智能大模型的训练者更好地让GPU发挥作用。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  CUDA发布于2007年,凭借着先行者地位和规模效应,CUDA成为深度学习领域事实上的垄断者。苹果在2009年推出OpenCL,这是一种开放标准,可用于对不同供应商的 CPU、GPU 和其他设备进行编程。但OpenCL在深度学习的生态上远不如CUDA,许多学习框架要么是在CUDA发布之后,才会去支持OpenCL,要么压根不支持OpenCL。苹果也没能动摇CUDA的地位。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  而就在今年GTC大会之前,英伟达或许想扩大自己的垄断地位,开始禁止第三方硬件兼容CUDA。有用户发现,英伟达在其CUDA软件11.6及更高版本的最终用户许可协议中新增了一条禁止逆向工程、反编译或反汇编使用SDK生成结果,并在非英伟达平台上进行转译的规定。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  在中国,摩尔线程、壁仞、华为都在开发自己的AI芯片,它们此前都是兼容CUDA接口的。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  360集团创始人周鸿3月18号在视频上表示,以前国产芯片可以通过CUDA接口来在国产操作系统上运行软件,“为什么说我们国家的显卡希望能兼容CUDA,因为CUDA已经变成事实上的标准,如果能兼容CUDA,我们的国产操作系统(底层是Linux、底层芯片是华为芯片)的接口不用改变,就能兼容Windows,上面可以运行软件。”6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  但周鸿认为CUDA的护城河没有英伟达想象的那么深。周鸿呼吁,把推理芯片和训练芯片的研发分开,推理的难度要小于训练,英伟达的显卡适用于训练但用在推理上有些浪费,国产芯片商可以研发自己的推理芯片;在训练芯片上,鼓励国产芯片厂商可以积极加入国际上开源的训练框架,联合世界上其他的厂商(甚至包括苹果、AMD等),重新定义一个非CUDA的标准。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  英伟达的CUDA系统垄断,加上美国愈发严格的芯片出口管制,会加强国产芯片自造一个生态系统的动力吗?6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  在美国针对英伟达又一轮出口管制发布后,2023年6月,英特尔专门把Gaudi 2芯片的发布会放在北京开,表示“帮助构建中国人工智能的未来”、“携手中国产业生态”,显然是想趁英伟达的缺位,进军中国市场。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  结果2023年10月美国新版芯片出口管制发布,AMD的MI250X、MI300,英特尔的Gaudi 2、Gaudi 3和英伟达一起上了名单。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  美国对中国的芯片出口管制越发严格,但所有人都知道,人工智能的时代已经不可避免地到来了。这种长期的封锁,长期的供不应求,必将加速中国芯片产业的自主研发。英伟达的AI芯片垄断地位,并不只靠它自身的技术实力和商业策略,或许也得看时运了。6GI速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

患者只需吸入特制的“氙气”,3.5秒后一幅人体肺部磁共振3D影像就呈现出来。影像中,气体可抵达肺部的位置清晰可见,患者的肺部微结构、气体交换功能情况等一目了然。日前,中国科学院精密测量科学 AI领域,一则重磅消息传来!最新消息,全球最知名的AI公司——OpenAI将在几个月内发布新版大型语言模型GPT-5,性能将有大幅跃升。目前,ChatGPT使用的是GPT-4大模型,去年3月份,正是这款热门聊天 据《自然》20日消息称,天文学家对91对恒星所作的光谱分析显示,大约每12个恒星中就有一个可能吞噬了一个行星。在吞噬一个行星后,恒星的化学构成可能发生改变,这个过程被称为“行星吸收”。通过比   英伟达AI风暴席卷医疗行业 “AI制药”是风口还是泡沫?  季媛媛  全球医疗健康行业正刮起最强AI风暴。  当地时间3月18日,全球瞩目的顶级AI盛会――英伟达2024年GPU技术大会(NVIDIA GTC 2024)正式开幕。据相关 3月25日消息,按照惯例,iPhone会在6月份的WWDC上发布iOS 18、watchOS 11、visionOS 2等全新系统。其中iOS 18比较受关注,被许多爆料者称为iOS史上最大升级。据名记Mark Gurman最新消息, iOS 18将支持 记者从中国气象局了解到,3月24日、25日和26日三天,将可能出现地磁活动,其中3月25日可能发生中等以上地磁暴甚至大地磁暴,预计地磁活动将持续到26日。在此影响之下,空间站可能因大气拖拽造成轨道高 。

本文链接:黄仁勋的英伟达帝国并非牢不可破http://www.sushuapos.com/show-2-4325-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: Claude 3反超GPT-4竞技场登顶!小杯Haiku成开发者新宠:性价比无敌

下一篇: AI应用元年,财税行业如何抓住变革机遇?

热门资讯

  • 站在“人工智能+”探索前列

    今年全国两会期间,人工智能成为热点话题,“人工智能+”首次被写入政府工作报告。一头连着数字经济发展大局,一头连着行业变革与创新,“人工智能+”既是

  • “桃花癫”是种病,得治

    民俗有言:桃花开,痴子忙。昨日,一大学生患“桃花癫”登上微博热搜,引发热议。该大学生认为周围女生都喜欢自己,并向全校的女生分别告白。不仅如此,由于精

  • 聚焦AWE2024|从单品升级到构建生态 家电产业智能化仍需突破与完善

    南方财经全媒体记者 吴立洋 上海报道日前,2024中国家电及消费电子博览会(AWE)在上海新国际博览中心闭幕。作为一年一度的家电产业盛会,AWE既是

  • 人工智能重新定义职场技能

    据阿根廷布宜诺斯艾利斯经济新闻网2月19日报道,在人工智能(AI)迅速重新定义就业格局的今天,通常被称为“软”技能的人类技能成为最有韧性、最有价值

  • 借AI“慧眼”鉴别可疑论文图片

    今年1月,英国分子生物学家肖尔托·戴维发表文章,指控美国哈佛大学医学院附属丹娜-法伯癌症研究所科学家通过修改图片伪造数据。随后该研究所正

  • AI芯片巨头低调赚钱

      AI芯片巨头低调赚钱  骆轶琪  在过去一年半导体行业下行周期中,除了英伟达以GPU霸主身份实现业绩快速成长之外,另一些主营虽非GPU,但是立足于AI定制芯片市场的半导体巨

  • “AI钢铁侠”黄仁勋,又进化了英伟达

      “AI钢铁侠”黄仁勋,又进化了英伟达  作 者丨倪雨晴  2024年,英伟达一年一度的GTC大会已然成为AI界春晚,现场座无虚席,全球AI爱好者翘首以待黄仁勋的独家SOLO。  北京

  • 旗舰效果下放!OPPO一加新品千元机曝光:IP68防水+超大电池

    3月22日消息,今天,数码博主“数码闲聊站”曝光了一部新款千元机的部分配置。该博主表示,欧加(OPPO/一加)有个5500mAh超大电池的千元曲屏机,正在测试IP68级防

  • GPU持续升级 如何应对算力“贫富差距”

    英伟达的GPU又升级了。3月19日,英伟达CEO黄仁勋发布了最新的B200算力芯片GPU,FP8精度下的训练性能是上一代的2.5倍,FP4精度下的推理性能更是达到了上

  • 中国气象局发布下一代大气数值模式

    中国气象局下一代大气数值模式日前发布。该模式采用完全自主的动力框架算法——多矩约束有限体积方法为基础算法,进一步提升全球公里级和

  • 限量抢!xiaomiCivi 4 Pro限定色真机照来了:3599元

    3月23日消息,xiaomi集团王晓雁晒出了xiaomiCivi 4 Pro限定色真机照,该系列共有三款颜色,分别是蓝色、粉色和黑与白,定价为3599元,将于4月1日开始发售。据了

  • “地球一小时”背后:绿色低碳生产生活蔚然成风

    3月23日20时30分许,内蒙古自治区鄂尔多斯市,约200米的高楼、磐石造型博物馆、书籍外形图书馆等主要地标建筑纷纷关闭灯光,人们在静下来的城市里感受

推荐资讯

  • 日榜
  • 周榜
  • 月榜