快讯科技财经汽车社会旅游娱乐时尚健康生活科学教育

热搜：内地买家入搭载2.8吨京东618全 “十五五” 【好评中国重庆：首批配有十大猥琐

首页 > 科技

Stability AI开源上新：3D生成引入视频扩散模型，质量一致性up，4090可玩

发布时间: 2024-03-26 17:06:18 来源：量子位

观看：281

网友：梦一个手办自由

Stable Diffusion背后公司Stability AI又上新了。

这次带来的是图生3D方面的新进展：

基于Stable Video Diffusion的Stable Video 3D（SV3D），只用一张图片就能生成高质量3D网格。

Stability AI开源上新：3D生成引入视频扩散模型，质量一致性up，4090可玩

Stable Video Diffusion（SVD）是Stability AI此前推出的高分辨率视频生成模型。也就是说，此番登场的SV3D首次将视频扩散模型应用到了3D生成领域。

官方表示，基于此，SV3D大大提高了3D生成的质量和视图一致性。

模型权重依然开源，不过仅可用于非商业用途，想要商用的话还得买个Stability AI会员~

话不多说，还是来扒一扒论文细节。

将视频扩散模型用于3D生成

引入潜在视频扩散模型，SV3D的核心目的是利用视频模型的时间一致性来提高3D生成的一致性。

并且视频数据本身也比3D数据更容易获得。

Stability AI这次提供两个版本的SV3D：

SV3D_u：基于单张图像生成轨道视频。

SV3D_p：扩展了SV3D_u的功能，可以根据指定的相机路径创建3D模型视频。

研究人员还改进了3D优化技术：采用由粗到细的训练策略，优化NeRF和DMTet网格来生成3D对象。

他们还设计了一种名为掩码得分蒸馏采样（SDS）的特殊损失函数，通过优化在训练数据中不直接可见的区域，来提高生成3D模型的质量和一致性。

同时，SV3D引入了一个基于球面高斯的照明模型，用于分离光照效果和纹理，在保持纹理清晰度的同时有效减少了内置照明问题。

具体到架构方面，SV3D包含以下关键组成部分：

UNet：SV3D是在SVD的基础上构建的，包含一个多层UNet，其中每一层都有一系列残差块（包括3D卷积层）和两个分别处理空间和时间信息的Transformer模块。
条件输入：输入图像通过VAE编码器嵌入到潜在空间中，会和噪声潜在状态合并，一起输入到UNet中；输入图像的CLIP嵌入矩阵则被用作每个Transformer模块交叉注意力层的键值对。
相机轨迹编码：SV3D设计了静态和动态两种类型的轨道来研究相机姿态条件的影响。静态轨道中，相机以规律间隔的方位角围绕对象；动态轨道则允许不规则间隔的方位角和不同的仰角。

相机的运动轨迹信息和扩散噪声的时间信息会一起输入到残差模块中，转换为正弦位置嵌入，然后这些嵌入信息会被整合并进行线性变换，加入到噪声时间步长嵌入中。

这样的设计旨在通过精细控制相机轨迹和噪声输入，提升模型处理图像的能力。

此外，SV3D在生成过程中采用CFG（无分类器引导）来控制生成的清晰度，特别是在生成轨道的最后几帧时，采用三角形CFG缩放来避免过度锐化。

研究人员在Objaverse数据集上训练SV3D，图像分辨率为575×576，视场角为33.8度。论文透露，所有三种模型（SV3D_u，SV3D_c，SV3D_p）在4个节点上训练了6天左右，每个节点配备8个80GB的A100 GPU。

实验结果

在新视角合成（NVS）和3D重建方面，SV3D超过了现有其他方法，达到SOTA。

从定性比较的结果来看，SV3D生成的多视角试图，细节更丰富，更接近与原始输入图像。也就是说，SV3D在理解和重构物体的3D结构方面，能够更准确地捕捉到细节，并保持视角变换时的一致性。

这样的成果，引发了不少网友的感慨：

评论区也总少不了一些大胆的想法……

并且项目开源嘛，已经有第一波小伙伴玩上了，在4090上就能跑起来。

如果你也有第一手实测体会，欢迎在评论区分享~

参考链接：
[1]https://twitter.com/StabilityAI/status/1769817136799855098
[2]https://stability.ai/news/introducing-stable-video-3d
[3]https://sv3d.github.io/index.html

— 完 —

3月18日，中国经济信息社（以下简称中经社）垂直领域数字化应用系统发布仪式在北京举行。在发布仪式上，锚定建设“国家级经济信息旗舰”的目标，中经社推出了八大数字化应用系统。中经社此次发布的行 3月17日记者获悉，哈尔滨医科大学公共卫生学院副院长、教授田懋一与副研究员叶鹏鹏团队在一项研究中提出，应将预防老年人跌倒与国家基本公共卫生服务中各项服务流程融合起来。该研究全面梳理了春，推也。从草从日，草春时生也。进入春日，人们时常能在大地回暖、万物复苏中见证旺盛的生命力。一起解锁空间站里的“春日关键词”，感受太空中的“春日力量”吧！春日关键词：温暖空间站内四季如春记者从近日举办的新疆筹建融合算力中心研讨会上获悉，新疆将构建具备国家级算力水平的涵盖超算、智算的融合算力中心。到2024年底，建成超算算力（FP64）不低于200P Flops、智算算力（FP16）不低于400P F 记者3月21日获悉，商汤科技与遥感数据平台吉林一号网、四维地球、星图地球等展开合作，此举标志着“SenseEarth智能遥感云”平台数据源全面升级，将为行业用户提供更完善、精准的一体化的高分辨率近日有消息称，huaweiMate60已经停产。作为huawei于2023年8月末发布的最新旗舰机型，huaweiMate60的停产意味着huawei新款旗舰或即将上市，接替Mate60。2023年8月29日，huaweiMate60 Pro、huaweiMate60等。

本文链接：Stability AI开源上新：3D生成引入视频扩散模型，质量一致性up，4090可玩http://www.sushuapos.com/show-2-4214-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：骁龙最强AI芯能力下放：小旗舰8s发布，端侧跑10B模型，小米首发

下一篇：荣耀AI PC开价5999！AI搜索/文档总结/实时翻译全实现

Stability AI开源上新：3D生成引入视频扩散模型，质量一致性up，4090可玩

将视频扩散模型用于3D生成

实验结果

热门资讯

推荐资讯

科技最热文章