设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

解决传统架构记忆瓶颈 MiniMax发布新一代模型

发布时间: 2025-01-16 09:56:39 来源: 新京报

1月15日,“AI六小虎”之一的MiniMax发布并开源了新一代01系列模型,包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。该系列模型使用多项突破性创新,以大规模应用线性注意力机制打破了Transformer传统架构的记忆瓶颈。KaZ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

未来,AI智能体有望成为最重要的产品形态,由于智能体处理的任务变得越来越复杂,涉及的数据量也越来越大,单个智能体的记忆以及多个智能体协作间的上下文都会变得越来越长。因此,长上下文能力与多模态处理能力的提升至关重要。KaZ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

技术上,MiniMax-01系列模型首次将线性注意力机制扩展到商用模型的级别,受益于此次架构创新,该系列模型在处理长输入的时候具有非常高的效率,接近线性复杂度。从规模效应、结构设计、训练优化和推理优化等层面综合考虑,MiniMax选择模型参数量为4560亿,其中每次激活459亿,能够高效处理400万token的上下文,将有效替代Transformer传统架构并开启超长文本输入时代。相较于Gemini等一众全球顶级模型,MiniMax-01随着输入长度变长,性能衰减最慢。KaZ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

值得注意的是,MiniMax还开源了Text-01模型、VL-01模型的完整权重,以便于更多开发者做有价值、突破性的研究。MiniMax方面表示,“我们认为这有可能启发更多长上下文的研究和应用,从而更快促进Agent时代的到来,二是开源也能促使我们努力做更多创新,更高质量地开展后续的模型研发工作。”KaZ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

1月15日,“AI六小虎”之一的MiniMax发布并开源了新一代01系列模型,包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。该系列模型使用多项突破性创新,以大规模应用线性注意力机制打破了Transformer传统架构的记忆瓶颈。KaZ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

未来,AI智能体有望成为最重要的产品形态,由于智能体处理的任务变得越来越复杂,涉及的数据量也越来越大,单个智能体的记忆以及多个智能体协作间的上下文都会变得越来越长。因此,长上下文能力与多模态处理能力的提升至关重要。KaZ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

技术上,MiniMax-01系列模型首次将线性注意力机制扩展到商用模型的级别,受益于此次架构创新,该系列模型在处理长输入的时候具有非常高的效率,接近线性复杂度。从规模效应、结构设计、训练优化和推理优化等层面综合考虑,MiniMax选择模型参数量为4560亿,其中每次激活459亿,能够高效处理400万token的上下文,将有效替代Transformer传统架构并开启超长文本输入时代。相较于Gemini等一众全球顶级模型,MiniMax-01随着输入长度变长,性能衰减最慢。KaZ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

值得注意的是,MiniMax还开源了Text-01模型、VL-01模型的完整权重,以便于更多开发者做有价值、突破性的研究。MiniMax方面表示,“我们认为这有可能启发更多长上下文的研究和应用,从而更快促进Agent时代的到来,二是开源也能促使我们努力做更多创新,更高质量地开展后续的模型研发工作。”KaZ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  诺贝尔化学奖获得者阿龙・切哈诺沃:做研究保持好奇心很重要  中新网宁波3月17日电(林波)对于学生而言,如何找到研究的信心和价值,让他们有继续下去的动力?  “做研究保持好奇心很重要。”3月17日,2004年诺贝尔化学 据中国科学院武汉植物园消息,我国科研人员在大别山区开展植物多样性科学考察时,发现了天门冬科天门冬属新物种,并将其命名为大别山天门冬。相关研究成果日前发表在国际知名植物分类学期刊《植物 3月15日,我国一些地区停止居民集中供热。初春时节,乍暖还寒。停暖初期昼夜温差较大,老人、儿童等身体较弱者,可能需要使用电暖气、电热毯等取暖设备,这导致部分家庭近来用电量增加。最近,一款名为 记者3月21日获悉,全球植物科学期刊《分子植物》刊载了中国科学家的最新研究,中国农业科学院作物科学研究所、国家南繁研究院与阿里达摩院(湖畔实验室)联合研发出全流程智慧育种平台,实现了育种数 3月21日,记者从陆军军医大学新桥医院获悉,该院普通外科开通甲乳结节AI早筛门诊,利用AI(人工智能)辅助诊断技术,成功为一名甲状腺乳头状癌患者成功实施手术提供了精准决策辅助。该院为重庆首家开通 记者从中国气象局了解到,3月24日、25日和26日三天,将可能出现地磁活动,其中3月25日可能发生中等以上地磁暴甚至大地磁暴,预计地磁活动将持续到26日。在此影响之下,空间站可能因大气拖拽造成轨道高 。

本文链接:解决传统架构记忆瓶颈 MiniMax发布新一代模型http://www.sushuapos.com/show-2-10161-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 深瞳丨AI为药物研发按下“快进键”

下一篇: 丝巾变色、火柴变玫瑰 年货节期间淘宝魔术道具销量大增174%

热门资讯

推荐资讯

  • 日榜
  • 周榜
  • 月榜