设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

MiniMax挑战Transformer架构,要做AI agent时代的新基建?业内称没有改变本质,尚需应用共识

2025-01-19 08:28:45 来源:

21世纪经济报道记者邓浩 上海报道EhW速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM


近期基础大模型领域热点不断,先是量化巨头幻方上线全新系列模型DeepSeek-V3首个版本上线并同步开源,以极低训练成本引发海内外对大模型经济性的广泛讨论。EhW速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

1月15日,本土“大模型六小龙”之一的MiniMax发布并开源了MiniMax-01全新系列模型,第一次大规模实现线性注意力机制,直接挑战传统的Transformer架构,再一次在行业掀起巨浪。EhW速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

某大模型领域专家对记者解释,“传统的Transformer的注意力机制的计算复杂度随着序列长度的增加而呈二次增长,所以做长文本效率很低。MiniMax一直在做’线性注意力机制’这一套,做了比较大的改进,从而可以做到400万token的超长上下文。”EhW速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

也有不少业内人士对记者表示,MiniMax的创新可以增强现有方法的效率,但没有改变本质。实际效果还需要应用的验证和共识。EhW速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

EhW速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

EhW速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

创新大模型增强效率EhW速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此前,MiniMax一直选择闭源,外界对其技术细节知之甚少,没想到这一次上手即是“王炸”。EhW速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不仅采用全新架构,而且实现综合性能比肩海外顶尖模型。据MiniMax透露,该模型的参数量高达4560亿个,其中单次激活459亿个。能够高效处理全球最长400万token的上下文,是GPT-4o的32倍,Claude-3.5-Sonnet的20倍。EhW速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

为什么需要这么大的窗口处理能力?EhW速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

事实上,在处理长文本内容、复杂任务的高效执行以及应对多模态/跨模态任务等情况时,越高的信息处理能力越能让模型充分理解需求,从而得到更优的结果。EhW速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

雪浪云高级副总裁、雪浪工业软件研究院副院长郭翘就对记者表示,“我们已经积累了不少工业语料,相当于工业场景数据,可以很快测试一些基础大模型的能力,而上下文的长度是非常重要的指标。”EhW速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

为什么可以做到?关键在于其使用了基于线性注意力机制的新架构,其中每8层中有7个是基于Lightning Attention的线性注意力,有1层是传统的SoftMax注意力。EhW速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

用个通俗的比喻,假如我们需要在一个装满卷轴的藏宝箱,找出一个与宝藏位置最相关的卷轴。传统的注意力机制类似于一群赏金猎人,每一个猎人会把手里的每一个卷轴都与其他所有卷轴依次做比较,随着卷轴书数量的增多,工作量会呈平方级增长。EhW速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而线性注意力机制相当于一位聪明的考古学家,他用一套相对简单的办法,依次对这些卷轴进行检阅,不断记录并累计对线索的理解,最后得出综合判断。这个工作量是随着卷轴增加而线性增长的,相对更高效。EhW速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

MiniMax称,主要“受益于我们的架构创新,我们的模型在处理长输入的时候有非常高的效率,接近线性复杂度。”而且,MiniMax还在技术论文中透露,“我们正在研究更高效的架构,以期完全摒弃softmax注意力机制,从而有可能实现无计算负担的无限上下文窗口。”EhW速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

况客科技(北京)有限公司管理合伙人安嘉晨对记者表示,“(MiniMax的影响)现在谈可能还为之过早,之前很多类似的其实最终没有成功证明自己比transformer好,这个需要应用的验证和共识。”EhW速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

某硅谷技术专家也对记者分析,“从去年开始,硅谷一直在诟病Transformer架构,认为没办法商用,成本消耗太大。Minimax的模型本质是对现有方法效率的增强,但是没有改变本质。”EhW速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

对于MiniMax来说,花费巨大精力和成本构建这个全新的架构,有着更大的野心。EhW速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

MiniMax直言,“我们相信2025年会是Agent高速发展的一年,不管是单Agent的系统需要持续的记忆,还是多Agent的系统中Agent之间大量的相互通信,都需要越来越长的上下文。在这个模型中,我们走出了第一步,并希望使用这个架构持续建立复杂Agent所需的基础能力。”EhW速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不过,上述硅谷技术专家表示并不太认可这个说法,其认为“就单纯AI agent来说,其实用不了太多的token,几千个足够了。多模态会需要,但技术还没到这个点上。”EhW速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

安嘉晨则坦言,“MiniMax的应用很成功,星野之类的APP,但是(Agent)用模型的话,我觉得竞争还是很激烈的,现在很难说谁比谁明显领先多少。”EhW速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源、口碑与性价比EhW速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

其实,在基础大模型领域,自从OpenAI推出O1和O3模型之后,产业界和投资界都逐渐形成新的共识,Scaling Law已经趋缓,预训练模型热度开始转向推理模型。EhW速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

前述硅谷技术专家称,“预训练大模型,现在大家有一个统一的共识,还没办法转化成真实的生产力,性价比极不合适。投资人也有点慌,因为不知道要烧(钱)到什么时候。”EhW速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最近的案例是李开复的零一万物,李开复公开表态,只有大厂能烧超大的模型,“我们觉得要和一个烧得起大模型的大厂合作,以后超大的模型由阿里训练,我们就可以用小而精的团队来做小而便宜的模型,拥抱应用的爆发。”EhW速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

实际上,商业化是摆在现在大模型初创公司面前的一条必答题。EhW速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

除了零一万物,月之暗面、百川智能、智谱AI等也在加速探索B端业务的变现,而MiniMax相对比较另类,2023年6月和9月,其相继在海外和国内上线AI陪伴产品“Talkie”、“星野”。2024年5月上线C端产品“海螺AI”,作为生产力助手。此前有媒体预测,MiniMax2024年收入预计达到7000万美元,而大部分收入来自Talkie的广告。EhW速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

该硅谷技术专家透露,“Minimax在国内比较犹豫,但在海外愿意花钱去租GPU,可以侧面印证海外收入还不错。”EhW速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

实际上,某熟悉MiniMax的业内人士曾对记者表示,由于MiniMax创始团队出身传统AI四小龙,吃过不少B端的“亏”,比如项目制开发,无法规模化做大,利润微薄,因此其在大模型领域创业时特别注重商业变现。EhW速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

可是,现在价格内卷也开始在预训练模型不断蔓延,如何在白菜价中实现规模盈利,仍将继续考验入局的玩家。EhW速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

MiniMax称,“受益于架构的创新、效率的优化、集群训推一体的设计以及我们内部大量并发算力复用,我们得以用业内最低的价格区间提供文本和多模态理解的API,标准定价是输入token 1元/百万token,输出token 8元/百万token。”EhW速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

对于业内比较关心的开源问题,MiniMax解释,“选择开源,一是因为我们认为这有可能启发更多长上下文的研究和应用,从而更快促进Agent时代的到来,二是开源也能促使我们努力做更多创新,更高质量地开展后续的模型研发工作。”EhW速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

前述硅谷技术专家对此表示,“我觉得大模型开源,主要还是做口碑。特别是在中国,一旦开源,客户的选择成本会很低。而且后续也可以有延伸的增值服务。”EhW速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

安嘉晨也认为,“闭源模型要盈利,就只能卷性能,但卷性能和盈利这两者几乎很难平衡,也许只有少数的一两个才能坚持闭源且盈利;开源的话,卷性能的需求下降了,自然成本压力也能缓释,还有可能占个生态位,未来还有建立商业模式的可能性。”EhW速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

郭翘则对记者分析,“我们只关注开源模型,为什么不用闭源(模型)?因为制造业的客户更关心数据安全,必须要保证私有化部署,而闭源模型通常是提供网络接口,通过公有云服务,这是B端客户不太容易接受的。”EhW速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

 EhW速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

 EhW速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

EhW速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本文链接:MiniMax挑战Transformer架构,要做AI agent时代的新基建?业内称没有改变本质,尚需应用共识http://www.sushuapos.com/show-2-10182-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 新鲜早科技丨支付宝称交易bug不会向用户追款;TikTok禁令或不予执行;抖音未放开海外用户注册

下一篇: CES深观察丨AI是绝对主角 中国产品展现竞争力

热门资讯

推荐资讯

  • 汉嘉设计:子公司伏泰科技董事长沈刚解除留置

      中新经纬11月24日电 24日早间,汉嘉设计公告,2025年11月23日,公司收到苏州市伏泰信息科技股份有限公司(简称“伏泰科技”)的通知,其收到苏州市姑苏区监察委员会签发的《解除

  • 【本周重磅前瞻】11月PMI将公布,2025世界智能制造大会举行

      中新经纬11月24日电 (周奕航)本周(11月24日―30日),中国方面,中国国家统计局将发布11月制造业PMI,16760亿元逆回购到期,2025世界智能制造大会将举行。国际上,美股感恩节假期

  • 75岁退休高管向英特尔泄密2nm?台积电称已起诉

    据中时新闻网等台媒消息,台积电11月25日发布公告称,已于当天向台湾智慧财产及商业法院提起针对前资深副总经理罗唯仁的诉讼,指控其赴英特尔任职的行为违反竞业协议并且“高

  • 广告小游戏崛起,字节腾讯押注下一个流量金矿

    Tech星球独家获悉,腾讯、字节跳动正在加码广告小游戏的布局,腾讯推出和计划推出的广告小游戏超10款,字节则是推出了《梦幻数独》小游戏,近期体验用户

  • 张斌:AI等高度市场化领域竞争力有望进一步释放

    21世纪经济报道记者 余纪昕11 月 22 日,为凝聚行业智慧、探寻发展新路径,由南方财经全媒体集团指导、21 世纪经济报道主办的 “第二十届 21

  • 北京飞捷腾达货运代理有限公司完成5000万元A轮融资

    近日,北京飞捷腾达货运代理有限公司(简称FJTD)宣布成功完成5000万元人民币A轮融资。本轮融资将主要用于技术升级、网络拓展与服务能力深化,进一步提升其全球综合物流服务能力。

  • 2025国内炒黄金的正规APP排名:香港AA类牌照TOP10榜单

    在金融投资的广阔领域中,黄金一直占据着举足轻重的地位。从古至今,黄金凭借其稀缺性、稳定性和高价值,不仅是财富的象征,更是投资者资产配置中不可或缺的一部分。 随着移动互联

  • 央行将开展1万亿元MLF操作

      央行将开展1万亿元MLF操作  证券时报记者 贺觉渊  为保持银行体系流动性充裕,中国人民银行11月24日发布预告称,将在25日以固定数量、利率招标、多重价位中标方式开展1

  • 富森美董秘张凤术被立案调查并留置

      中新经纬11月25日电 富森美25日晚间公告,公司于近日收到崇州市监察委员会签发《立案通知书》和《留置通知书》,对公司副总经理、董事会秘书张凤术立案调查并实施留置措

  • ST长园董事长乔文健涉嫌职务违法被留置

      中新经纬11月25日电 25日早间,ST长园低开1.64%,股价报3.59元。  来源:Wind  24日晚间,该公司发布公告称,于2025年11月24日收到惠州市惠阳区监察委员会签发的关于公司董事

  • 东风资管瞿浩、东风物流深圳分公司刘兴旺被查

      中新经纬11月25日电 据微信号“廉洁东风”24日消息,瞿浩、刘兴旺接受审查调查。  据中央纪委国家监委驻东风汽车集团有限公司纪检监察组、湖北省襄阳市纪委监委消息:东

  • 美股三大股指齐升 中概股普遍上涨

      中新经纬11月25日电 美东时间周一(24日),由于市场对美联储降息的乐观情绪增强,美股反弹势头延续。美股三大股指集体收涨,道指涨0.44%,纳指涨2.69%,标普500指数涨1.55%。来源:Win

  • 日榜
  • 周榜
  • 月榜