当科技巨头押注“多模态”，谁能为AI落地找到终极答案？

发布时间: 2025-04-17 06:42:06 来源：

观看：155

21世纪经济报道记者董静怡上海报道 在AI 2.0时代，模型与应用已密不可分。应用场景推动模型发展，而大模型通过差异化创新来突破各种垂直领域的需求。

多模态被看作是一个必然的趋势，也是商汤大模型的“关键词”。近日，商汤技术交流日上发布的“日日新SenseNova V6”，就是一个涵盖通用模型、推理模型、视频理解模型及全模态交互模型的体系。

“从我们的角度来讲，商汤从视觉能力延伸到原生多模态模型是一个非常自然的延伸。”日前，商汤科技董事长兼CEO徐立在商汤技术交流日的演讲中表示，“从行业的发展趋势来看，我们也看到一些潜在的提示点。”

目前，业界对推理能力的关注主要在数理求解等纯文本推理任务上，但要实现推理能力在更广泛场景的落地，就需要多模态和推理的紧密结合。

国际科技巨头正加速布局多模态大模型领域，这一趋势在近期密集发布的新品中体现得尤为明显——无论是谷歌推出的Gemini 2.0、OpenAI发布的GPT-4.5，还是Meta最新开源的Llama 4，都在显著提升原生多模态能力。这些突破性进展表明，通过实现更广泛、更深度的信息交互与整合，多模态大模型正在为用户创造更完整、更丰富的场景价值。

未来，AI大模型的竞争焦点将从技术参数转向应用深度，其核心竞争力将体现在它能否理解人类情感、记忆交互上下文，并在教育、医疗、工业等场景中提供“好用”而非“能用”的解决方案。

多模态成AI共识

据Epoch AI预测，到2028年，互联网上所有高质量的文本数据都将被使用完毕，机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”。这意味着，如果以当前趋势继续下去，数据将成为大型语言模型（LLM）的重大瓶颈。

不过，在徐立看来，这并不意味着整个知识体系都被消耗完。他认为，有很多的知识都蕴藏在大量的图像、视频，甚至3D等其他模态中。但到目前为止，还没有完全地把这些知识真正用来提升原来的文本，甚至是智力的能力，“因为模态的融合没有做到那么好。”

“关于多模态模型的训练，其计算架构比纯文本模型更为复杂。”商汤科技联合创始人兼大模型首席科学家林达华向21世纪经济报道记者表示。

具体来说，文本处理通常包含编码和解码两个阶段，而多模态训练还需要额外处理视频和图像数据的编码阶段。此外，多模态模型还涉及不同模态之间编码方式的协调与选择问题，这进一步增加了模型设计和训练的复杂度。

沙利文大中华区执行总监崔楠也向记者表示，多模态大模型的训练不仅需要大量计算资源，而且训练时间长、效率低。

因此，多模态大模型的持续进化和迭代，也成为了人工智能领域最引人注目的发展趋势之一，国际科技巨头都在不约而同地加强大模型的多模态能力建设。

例如，谷歌的Gemini 2.0凭借原生支持文本、图像、音频和视频的多模态输入输出，结合强大的推理能力和智能体（Agent）架构，显著提升了复杂任务的交互体验。

OpenAI的GPT-4.5则进一步优化了多模态融合，在长上下文理解、跨模态推理等方面取得突破，增强了模型在科研、创作等领域的实用性。

而Meta最新发布的Llama 4采用专家混合架构（MoE）和早期融合技术，在视觉-语言联合训练上取得进展，使其在多模态开源模型中占据领先地位。这些清晰的技术演进路径标志着AI发展正在进入一个全新的阶段。

“大家都在越来越多的强调多模态的能力，这个是一个自然的市场趋势。”商汤科技联合创始人、大装置事业群总裁杨帆表示。

多模态大模型突破了传统单模态模型的局限性，通过整合文本、图像、音频、视频等多种信息模态，实现了更接近人类认知方式的复杂信息处理能力。这种跨模态的深度融合不仅大幅提升了模型的理解深度，更创造了前所未有的应用可能性。

“语言是一种编码过程，这一过程存在信息损失。人类在进行思考和判断时，往往借助多模态方式。因此，多模态正逐渐成为行业模型发展的趋势，它为诸多全新的应用、场景乃至硬件形态的出现提供了可能。”杨帆表示。

打开落地应用的新可能

2023年起，商汤启动业务重组，将重心转向生成式AI。商汤2024年全年业绩财报显示，生成式AI收入突破24.0亿元人民币，同比增长103.1%，占集团收入的比例由2023年的34.8%进一步提升至63.7%，已成为集团最大业务。

此次“日日新SenseNova V6”的发布，可视为其技术转型的阶段性成果——通过多模态融合，将视觉能力与模型结合，延续其在图像、视频理解上的积累。

而多模态也是多样行业落地的必备因素。因为AI最终会走回线下，走回物理现实，在这个过程中多模态的处理和思考能力就成为一种必然的趋势性需求。

“未来的交互，就是一个多模态全模态的交互，”林达华向记者表示，“我们就是要打通未来交互入口的核心技术。”

徐立强调：“AI之道，在于百姓之日用。”这句话既点明了商汤的技术愿景，也揭示了当前大模型发展的核心挑战——如何让AI真正融入产业与生活，而非停留在实验室或技术演示阶段。

此前，商汤科技确立了“大装置-大模型-应用”三位一体核心战略，以日日新（SenseNova）多模态大模型为基石，以生产力工具和交互工具为两大落地方向。

商汤科技认为，大模型在商业应用上有两个方面的关键价值：一是融入真实的业务应用，具备处理复杂信息和解决复杂问题的能力；二是以更有亲和力的方式与人交互，让人感受到和模型交流的良好体验，愿意和模型持续交流。

要实现上述目标，模型需要具备强大的推理能力，以支撑对人类意图的深度理解、对复杂信息的分析判断以及解决真实环境中的复杂问题；能理解情感，与人共情，并且可以和人实时互动；能记住过去一段时间发生的事情，并且捕捉其中的关键信息并融入推理。

反映在落地应用上，则在具身智能、教学等场景上有所突破。林达华向记者表示，会从这些特定行业出发进行初步迭代，之后众多下游企业、合作伙伴以及爱好者会衍生出更多应用创意。

“靠单纯的技术很难形成长久的壁垒，现在一个新的模型发布后很快就会有一系列模型追赶上来，开源也会进一步缩小大家在技术上的差距。技术和行业的深度结合才能形成持久壁垒。”林达华表示。

放眼行业，阿里巴巴宣布推动大模型技术对公司业务的深度改造，百川智能宣布减少多余动作，专注医学方向，这都说明大模型企业开始专注于技术落地和应用的爆发。

不过，大模型最终要解决的是“好用”而非“能用”的问题，数据隐私、模型偏见、算力成本等问题仍需行业共同应对。零一万物创始人李开复预测，2025年是“AI应用大规模落地元年”，但厂商需回归商业本质，真正为客户创造价值，而非仅追求技术指标。

行业的下半场，胜负将取决于谁能更深入产业，构建“数据飞轮”和场景黏性。商汤的战略提供了某种参考答案，但最终能否在激烈的竞争中脱颖而出，仍需时间检验。无论如何，多模态AI的深入发展，正让智能技术前所未有地贴近普通人的生活，而这或许才是此次技术浪潮最值得期待的方向。

3月18日，中国经济信息社（以下简称中经社）垂直领域数字化应用系统发布仪式在北京举行。在发布仪式上，锚定建设“国家级经济信息旗舰”的目标，中经社推出了八大数字化应用系统。中经社此次发布的行美国《新闻周刊》网站2月4日刊登题为《人工智能可能会在数十年内解开人体的秘密》的文章，作者是亚历克斯·菲利普斯，内容编译如下：一位医生(同时也是一本关于新兴技术在医疗领域应用的新记者从国家航天局获悉，3月20日8时31分，探月工程四期鹊桥二号中继星由长征八号遥三运载火箭在中国文昌航天发射场成功发射升空。科技日报记者付毅飞摄火箭飞行24分钟后，星箭分离，将鹊 3月22日消息，根据huawei旗舰机型迭代策略，今年上半年将发布影像旗舰huaweiP70系列。然而，这两天一张流出的图片声称huaweiP70将于3月23日开始预售，并附有各个版本的具体售价。但据媒体报道，huawei相关 3月22日消息，中国互联网络信息中心（CNNIC）今天发布了《中国互联网络变化状况计算报告》。《报告》显示，截至2023年12月，我国网民规模达10.92亿人，较2022年12月新增网民2480万人，互联网普及率达77.5%。截今年3月23日是第64个世界气象日，主题是“气候行动最前线”。面对愈加频繁的极端天气和全球变暖等气候危机，减缓气候变化已刻不容缓。发展新能源是应对气候变化的重要举措之一，而气象服务对于新。

本文链接：当科技巨头押注“多模态”，谁能为AI落地找到终极答案？http://www.sushuapos.com/show-2-11860-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：中无人机董事长张晓军：重点客户采购延后拖累业绩，预计2025年市场将迎转机

下一篇：两个AI，说着说着就“加密”了......

当科技巨头押注“多模态”，谁能为AI落地找到终极答案？

多模态成AI共识

打开落地应用的新可能

热门资讯

推荐资讯

科技最热文章