设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

美团首个大模型被爆成功跑通国产化训练路径,可在国产加速卡上进行

2025-09-02 09:11:56 来源: 观察者网

DXP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

9月1日,美团宣布LongCat-Flash-Chat正式发布,在Github、Hugging Face平台开源,并同步上线官网。DXP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此前有自媒体“01Founder”爆料称,LongCat-Flash最大的亮点是其训练并非在英伟达GPU上完成,而是在国产加速卡上进行。美团已经成功跑通了一条不被“卡脖子”的技术路径,但由于一些原因,真正的硬件厂商具体名字不方便透露。DXP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

对于该爆料,美团方面未作正面回应,只介绍称,LongCat-Flash采用创新性混合专家模型(Mixture-of-Experts, MoE)架构,总参数560B,激活参数18.6B-31.3B(平均 27B),实现了计算效率与性能的双重优化。DXP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

根据多项基准测试综合评估,作为一款非思考型基础模型,LongCat-Flash-Chat在仅激活少量参数的前提下,性能比肩当下领先的主流模型,尤其在智能体任务中具备突出优势。DXP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外,因为面向推理效率的设计和创新,LongCat-Flash-Chat具有明显更快的推理速度,更适合于耗时较长的复杂智能体应用。DXP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

DXP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

LongCat-Flash的基础测试性能 DXP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

至于美团为何要加入大模型之战,或与公司AI战略的三个层面有关,即AI at work、AI in products以及 Building LLM。DXP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

今年以来,美团AI进展频传,发布了AI Coding Agent工具 NoCode 、AI经营决策助手袋鼠参谋、酒店经营的垂类AI Agent美团既白等多款AI应用。此次模型开源则是其 Building LLM 进展的首度曝光。DXP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

再具体点看,LongCat-Flash模型在架构层面引入“零计算专家(Zero-Computation Experts)”机制,总参数量 560B,每个token依据上下文需求仅激活18.6B-31.3B参数,实现算力按需分配和高效利用。为控制总算力消耗,训练过程采用PID控制器实时微调专家偏置,将单token平均激活量稳定在约27B。DXP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外,LongCat-Flash在层间铺设跨层通道,使MoE的通信和计算能很大程度上并行,提高了训练和推理效率。配合定制化的底层优化,LongCat-Flash在30天内完成高效训练,并在H800上实现单用户100+tokens/s的推理速度。LongCat-Flash还对常用大模型组件和训练方式进行了改进,使用了超参迁移和模型层叠加的方式进行训练,并结合了多项策略保证训练稳定性,使得训练全程高效且顺利。DXP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

DXP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

LongCat-Flash架构图 DXP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

针对智能体(Agentic)能力,LongCat-Flash自建了Agentic评测集指导数据策略,并在训练全流程进行了全面的优化,包括使用多智能体方法生成多样化高质量的轨迹数据等。DXP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

通过算法和工程层面的联合设计,LongCat-Flash在理论上的成本和速度都大幅领先行业同等规模、甚至规模更小的模型;通过系统优化,LongCat-Flash在H800 上达成了100 token/s的生成速度,在保持极致生成速度的同时,输出成本低至5元/百万token。DXP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本文系观察者网独家稿件,未经授权,不得转载。 DXP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本文链接:美团首个大模型被爆成功跑通国产化训练路径,可在国产加速卡上进行http://www.sushuapos.com/show-3-153684-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 腾讯混元阶跃星辰美团开源新模型;抖音微博DeepSeek宣布对AI生成合成内容添加标识

下一篇: “亚太富豪直接进入黄金行业”,香港黄金交易中心蓄势待发

热门资讯

  • 周心怀转任中国石油天然气集团总经理

      中新经纬8月29日电 中国石油天然气集团有限公司官网29日消息,中国海洋石油集团有限公司总经理周心怀转任中国石油天然气集团有限公司总经理。  2025年8月29日,中国石油

  • 连涨三年后,高端彩妆毛戈平降价了

      中新经纬8月29日电 (林琬斯)近日,毛戈平化妆品股份有限公司(下称毛戈平)披露2025年中报称,上半年实现收入25.88亿元,同比增长31.3%;净利润6.70亿元,同比增长36.1%。  作为

  • 创指半日涨2.34%,宁德时代涨超11%

      中新经纬8月29日电 29日,A股市场早盘震荡反弹,创业板指领涨,宁德时代涨超11%。  Wind截图  截至午间收盘,沪指涨0.16%,深成指涨0.93%,创业板指涨2.34%。  盘面上,固态电

  • 今年前7个月中国物流业总收入同比增长4.9%

      中新经纬8月28日电 中国物流与采购联合会28日通过官方公众号发布2025年1-7月物流运行分析。其中指出,1-7月份,物流业总收入为8.2万亿元,同比增长4.9%。  中国物流与采购

  • 万丰股份半年报:扣非净利飙升91.72%,新材料引擎已点火”

    在全球纺织产业链重构、环保监管趋严的背景下,浙江万丰化工股份有限公司(603172.SH)于8月29日交出了一份亮眼的“期中答卷”。公司2025年上半年实现营业收入2.75亿元,同比增长17

  • 可靠股份因未及时审议和信披遭警示

      中新经纬9月1日电 据浙江证监局网站9月1日消息,浙江证监局近日对杭州可靠护理用品股份有限公司出具警示函。  来源:浙江证监局网站   浙江证监局表示,经查,截至2025年4

  • 外媒:二季度日本制造业经常利润同比降11.5%

      中新经纬9月1日电 据日本共同网报道,日本财务省1日公布的二季度(4至6月)法人企业统计显示,日本制造业经常利润较上年同期减少11.5%,为11.2674万亿日元(约合人民币5469亿元)

  • 恒指收涨2.15% 阿里巴巴涨超18%

      中新经纬9月1日电 周一,港股三大指数全线上涨。截至收盘,恒生指数涨2.15%,恒生科技指数涨2.20%,恒生国企指数涨1.95%。大市成交额3802亿港元。  来源:同花顺iFinD  盘面

  • 四姑娘山风景名胜区管理局原局长周全福被“双开”

      中新经纬9月1日电 据微信号“廉洁四川”消息,四姑娘山风景名胜区管理局原党委委员、局长周全福严重违纪违法被开除党籍和公职。  日前,经阿坝州委批准,阿坝州纪委监委对

  • 王青等:新动能发展潜力释放推动8月宏观景气度回升

      中新经纬9月1日电 题:新动能发展潜力释放推动8月宏观景气度回升  作者 王青 东方金诚首席宏观分析师  闫骏 东方金诚分析师  冯琳 东方金诚研究发展部执行总监  

  • 恒指涨1.77%,有色金属板块活跃,中国黄金国际涨逾11%

      中新经纬9月1日电 港股在9月首个交易日迎来大涨。截至午间收盘,恒指、恒生科技指数均涨1.77%,恒生国企指数涨1.54%。市场半日成交额2349.9亿港元,南向资金净买入65.35亿港

  • 高能环境实控人李卫国拟减持不超4569.7万股偿还债务

        中新经纬8月31日电 北京高能时代环境技术股份有限公司(下称高能环境或公司)31日公告,实控人、控股股东李卫国拟减持不超4569.7万股股份,以偿还债务。  高能环境表示

推荐资讯

  • 日榜
  • 周榜
  • 月榜