AI 视频总 “穿帮”？群核 SpatialGen 用 3D 扩散模型，让物体位置不 “漂移”

发布时间: 2025-09-01 09:27:43 来源：大象新闻

观看：141

“明明是同一个客厅场景，镜头一转，沙发就从靠窗位置移到了墙边；生成的厨房视频里，冰箱突然‘穿透’了橱柜”—— 这是当前 AIGC 视频工具的常见问题，行业称之为 “空间一致性不足”。这一问题不仅影响视频的真实感，更让 AI 视频难以应用于虚拟看房、产品演示等商业化场景。而群核科技在首届 TechDay 上发布并开源的空间生成模型 SpatialGen，正是用 3D 扩散模型技术，从根源上破解了这一行业痛点。

近日，群核科技在首届技术开放日（TechDay）上正式发布其空间大模型最新成果：新一代空间语言模型SpatialLM 1.5与空间生成模型SpatialGen。其中，SpatialGen依托群核科技海量室内3D场景数据与多视角扩散模型技术，可生成3D高斯（3DGS）场景和渲染漫游视频，并确保同一物体在不同镜头下始终保持准确的空间属性和物理关系，支持任意视角切换、路径漫游，光照、纹理、遮挡关系全程物理一致。

图说：SpatialGen的多视角一致性演示

要理解 SpatialGen 的突破，首先需要搞清楚 AI 视频 “穿帮” 的根源：当前多数文生视频、图生视频工具，都是基于 2D 图像或视频数据训练，缺乏对 3D 空间结构的理解。比如，AI 生成室内视频时，会将每个镜头视为独立的 2D 图像来处理，无法记住 “沙发在 3D 空间中的真实位置”，导致镜头切换时物体 “漂移”；生成物体交互场景时，也无法理解 “冰箱不能穿透橱柜” 的物理逻辑。

这背后的原因是当下多数视频生成模型是基于图像或视频数据训练，图像缺少人类感知空间时所依赖的深度线索，因此仅凭自然语言难以让 AI 建立精确的空间关系认知，因此会缺乏对 3D 空间结构和物理法则的理解和推演能力。

SpatialGen 依托群核积累的数亿 3D 空间数据集和自研渲染引擎，训练可以生成任意指定视角图片的扩散模型。其核心在于让 AI 对空间的认知严格符合真实物理规律，从底层解决 2D 感知到 3D 理解的映射偏差。并首次基于多视角扩散+3DGS重建技术，从源头解决空间一致性问题。

TechDay 现场的对比演示，直观展现了这种技术的优势：工作人员分别用其他AI视频生成模型和 SpatialGen 生成 “客厅漫游视频”。其他模型生成的视频，在镜头转换过程中，家具发生了明显不一致状况，而 SpatialGen 生成的视频中，无论镜头如何切换 —— 从正面拍沙发，从侧面拍餐桌，从俯瞰拍整个客厅 —— 沙发、餐桌的位置与尺寸始终保持一致。

SpatialGen 能实现这种突破，还得益于群核科技海量的 3D 场景数据和空间智能飞轮支撑。基于酷家乐这一全球最大的空间设计平台，群核科技构建了“空间编辑工具-空间合成数据-空间大模型”的空间智能飞轮，让工具沉淀数据，用数据加速模型训练，用模型提升工具体验，再在工具的广泛应用中沉淀更为丰富的场景数据。正如快手依托短视频生态推动可灵迭代一样，群核凭借酷家乐沉淀的海量室内物理数据，正在空间智能领域复现“工具—数据—模型”的技术增强回路。

据透露，群核还在研发一款基于3D技术的AI视频生成产品，并计划在今年内正式发布——这或许是全球首款深度融合3D能力的AI视频生成Agent。通过构建3D渲染与视频增强一体化的生成管线，有希望弥补当前AIGC视频生成中时空一致性不足的问题。

（本文来源：大象新闻。本网转发此文章，旨在为读者提供更多信息资讯，所涉内容不构成投资、消费建议。对文章事实有疑问，请与有关方核实或与本网联系。文章观点非本网观点，仅供读者参考。）

“明明是同一个客厅场景，镜头一转，沙发就从靠窗位置移到了墙边；生成的厨房视频里，冰箱突然‘穿透’了橱柜”—— 这是当前 AIGC 视频工具的常见问题，行业称之为 “空间一致性不足”。这一问题不仅影响视频的真实感，更让 AI 视频难以应用于虚拟看房、产品演示等商业化场景。而群核科技在首届 TechDay 上发布并开源的空间生成模型 SpatialGen，正是用 3D 扩散模型技术，从根源上破解了这一行业痛点。

近日，群核科技在首届技术开放日（TechDay）上正式发布其空间大模型最新成果：新一代空间语言模型SpatialLM 1.5与空间生成模型SpatialGen。其中，SpatialGen依托群核科技海量室内3D场景数据与多视角扩散模型技术，可生成3D高斯（3DGS）场景和渲染漫游视频，并确保同一物体在不同镜头下始终保持准确的空间属性和物理关系，支持任意视角切换、路径漫游，光照、纹理、遮挡关系全程物理一致。

图说：SpatialGen的多视角一致性演示

要理解 SpatialGen 的突破，首先需要搞清楚 AI 视频 “穿帮” 的根源：当前多数文生视频、图生视频工具，都是基于 2D 图像或视频数据训练，缺乏对 3D 空间结构的理解。比如，AI 生成室内视频时，会将每个镜头视为独立的 2D 图像来处理，无法记住 “沙发在 3D 空间中的真实位置”，导致镜头切换时物体 “漂移”；生成物体交互场景时，也无法理解 “冰箱不能穿透橱柜” 的物理逻辑。

这背后的原因是当下多数视频生成模型是基于图像或视频数据训练，图像缺少人类感知空间时所依赖的深度线索，因此仅凭自然语言难以让 AI 建立精确的空间关系认知，因此会缺乏对 3D 空间结构和物理法则的理解和推演能力。

SpatialGen 依托群核积累的数亿 3D 空间数据集和自研渲染引擎，训练可以生成任意指定视角图片的扩散模型。其核心在于让 AI 对空间的认知严格符合真实物理规律，从底层解决 2D 感知到 3D 理解的映射偏差。并首次基于多视角扩散+3DGS重建技术，从源头解决空间一致性问题。

TechDay 现场的对比演示，直观展现了这种技术的优势：工作人员分别用其他AI视频生成模型和 SpatialGen 生成 “客厅漫游视频”。其他模型生成的视频，在镜头转换过程中，家具发生了明显不一致状况，而 SpatialGen 生成的视频中，无论镜头如何切换 —— 从正面拍沙发，从侧面拍餐桌，从俯瞰拍整个客厅 —— 沙发、餐桌的位置与尺寸始终保持一致。

SpatialGen 能实现这种突破，还得益于群核科技海量的 3D 场景数据和空间智能飞轮支撑。基于酷家乐这一全球最大的空间设计平台，群核科技构建了“空间编辑工具-空间合成数据-空间大模型”的空间智能飞轮，让工具沉淀数据，用数据加速模型训练，用模型提升工具体验，再在工具的广泛应用中沉淀更为丰富的场景数据。正如快手依托短视频生态推动可灵迭代一样，群核凭借酷家乐沉淀的海量室内物理数据，正在空间智能领域复现“工具—数据—模型”的技术增强回路。

据透露，群核还在研发一款基于3D技术的AI视频生成产品，并计划在今年内正式发布——这或许是全球首款深度融合3D能力的AI视频生成Agent。通过构建3D渲染与视频增强一体化的生成管线，有希望弥补当前AIGC视频生成中时空一致性不足的问题。

（本文来源：大象新闻。本网转发此文章，旨在为读者提供更多信息资讯，所涉内容不构成投资、消费建议。对文章事实有疑问，请与有关方核实或与本网联系。文章观点非本网观点，仅供读者参考。）

1月26日，恩州驿古街开街面市，作为焦作市城区首个沉浸式历史文化街区，以独特的历史文化和厚重的古街区氛围吸引着无数游客，依托文化底蕴、生态景观、潮趣业态、数字特装四大特色，为市民和游客带来近期，有关韩剧Hide什么时候播出的讨论也一直持续不断。对于这个话题，大众关心的方面还包括诸如剧情设定、演员表演、特效制作等等。根据这些小编特地来和大家进行深入探讨，一展这部剧的精髓。韩剧Hide什最近只要打开社交app就能看到关于“哈尔的移动城堡是什么时候出的”的讨论，这绝对是粉丝最关心的东西，今天小编就和大家一起探讨一下关于哈尔的移动城堡是什么时候出的的看法和想法。哈尔的移动城堡是 2月6日消息，2022年底，大家苦等了十年的《阿凡达2》正式上映。虽然被吐槽剧情老套，但其画面表现、世界观呈现等依然是全球顶级水准，拿下了奥斯卡最佳视效奖，全球影史票房第三。得益于《阿凡达2》出色的 2月6日消息，最近，环球影业宣告全新《侏罗纪世界》电影档期，将于2025年7月2日北美上映。据媒体报道，这一部将是全新故事线和演员阵容，最近正在商谈由大卫·雷奇担任导演。该片由老版《侏罗纪公园志趣相投，闺蜜变身“合作伙伴”随着2023年巅峰之战的落幕，从语音赛道中脱颖而出的冠军家族——红颜娱乐迎来了自己的“四周岁生日”。独特的管理制度、专业的发展眼光、优质的语音房。

本文链接：AI 视频总 “穿帮”？群核 SpatialGen 用 3D 扩散模型，让物体位置不 “漂移”http://www.sushuapos.com/show-7-23226-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：《NIGHTKIDZ 夜之子》强势登顶！网易云音乐25年第35期说唱周榜发布

下一篇：林强解读天然钻石投资，4C定价值、稀缺性筑护城河，消费升级添动力

AI 视频总 “穿帮”？群核 SpatialGen 用 3D 扩散模型，让物体位置不 “漂移”

热门资讯

推荐资讯

娱乐最热文章