豆包视频生成模型实现多主体复杂交互

发布时间: 2024-10-10 12:53:02 来源：科技日报

观看：262

近日，字节跳动旗下火山引擎在深圳举办AI创新巡展，发布了豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型。此前视频生成模型大多只能完成简单指令，豆包视频生成模型则能实现自然连贯的多拍动作与多主体复杂交互。例如，后者可以让不同人物完成多个动作指令的互动，使人物样貌、服装细节甚至头饰在不同运镜下也保持一致，接近实拍效果。

据火山引擎介绍，豆包视频生成模型基于DiT架构，通过高效的DiT融合计算单元，让视频在大动态与运镜中自由切换，拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。全新设计的扩散模型训练方法攻克了多镜头切换的一致性难题，在镜头切换时可同时保持主体、风格、氛围的一致性，这也是豆包视频生成模型独树一帜的创新点。

经过剪映、即梦AI等业务场景打磨和持续迭代，豆包视频生成模型已具备专业级光影布局和色彩调和，画面视觉极具美感和真实感。深度优化的Transformer结构，则大幅提升了豆包视频生成的泛化能力，支持3D动画、2D动画、国画、黑白、厚涂等多种风格。

“视频生成有很多难关亟待突破。豆包两款模型会持续演进，在解决关键问题上探索更多可能性，加速拓展AI视频的创作空间和应用落地。”火山引擎总裁谭待说。

近日，字节跳动旗下火山引擎在深圳举办AI创新巡展，发布了豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型。此前视频生成模型大多只能完成简单指令，豆包视频生成模型则能实现自然连贯的多拍动作与多主体复杂交互。例如，后者可以让不同人物完成多个动作指令的互动，使人物样貌、服装细节甚至头饰在不同运镜下也保持一致，接近实拍效果。

据火山引擎介绍，豆包视频生成模型基于DiT架构，通过高效的DiT融合计算单元，让视频在大动态与运镜中自由切换，拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。全新设计的扩散模型训练方法攻克了多镜头切换的一致性难题，在镜头切换时可同时保持主体、风格、氛围的一致性，这也是豆包视频生成模型独树一帜的创新点。

经过剪映、即梦AI等业务场景打磨和持续迭代，豆包视频生成模型已具备专业级光影布局和色彩调和，画面视觉极具美感和真实感。深度优化的Transformer结构，则大幅提升了豆包视频生成的泛化能力，支持3D动画、2D动画、国画、黑白、厚涂等多种风格。

“视频生成有很多难关亟待突破。豆包两款模型会持续演进，在解决关键问题上探索更多可能性，加速拓展AI视频的创作空间和应用落地。”火山引擎总裁谭待说。

3月18日，记者从山西省人民政府获悉，“山西煤炭工业互联网智算平台”日前在山西联通大数据中心建设完成。该平台由中国联通与山西晋云互联科技有限公司共同打造，是山西省目前唯一的垂直行业类智 21世纪经济报道见习记者顾婷婷杭州报道如何让沉睡在实验室里的专利真正应用到车间，真正面向市场，转化为真正的新质生产力？3月19日，由国家知识产权局组织的高校和科研机构存量专利盘活记者3月21日从安徽农业大学获悉，该校生命科学学院韩毅教授课题组与国内外专家合作，发现了植物避盐性的关键基因。该研究对于提高植物耐盐性，帮助盐碱地下的农作物稳产具有重要理论指导意义。相有消息称，iPhone在中国寻找本土生成式AI提供方，iPhone讨论了在中国的设备中使用百度的人工智能技术。据《华尔街日报》报道，iPhone与百度进行了谈判，以授权其型号。这可能是为了向中国的iPhone客户提 3月25日消息，按照惯例，iPhone会在6月份的WWDC上发布iOS 18、watchOS 11、visionOS 2等全新系统。其中iOS 18比较受关注，被许多爆料者称为iOS史上最大升级。据名记Mark Gurman最新消息， iOS 18将支持记者从中国科学院新疆天文台获悉，近期南山26米射电望远镜在参与欧洲VLBI网组织的联测中，首次成功运用4Gbps宽带、高码率VLBI技术获得干涉条纹。相较于2Gbps观测，该技术理论上可将图像信噪比提升。

本文链接：豆包视频生成模型实现多主体复杂交互http://www.sushuapos.com/show-2-8756-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：量子纠缠可提升光学原子钟精度

下一篇：中国电子口岸数据中心异地（南京）容灾系统启用

豆包视频生成模型实现多主体复杂交互

热门资讯

推荐资讯

科技最热文章