支持文本图像视频输入TM9速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
先上代码再发论文,腾讯新开源文生视频工具火了。TM9速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
名为MuseV,主打基于视觉条件并行去噪的无限长度和高保真虚拟人视频生成。TM9速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
老规矩,先看效果。TM9速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
静态的金克丝秒秒钟就能动起来朝你抛媚眼:TM9速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

画中诗圣也“活”了过来:TM9速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

各种风格都能驾驭,风景图也不在话下:TM9速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

更有搞笑风《微笑的骑士》:TM9速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

再上难度,复杂些的弹唱也处理得比较自然:TM9速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外,加入“骨架”控制动作、姿势也可以:TM9速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

腾讯这次论文还没发直接放出训练好的模型和部署运行的代码的操作让网友眼前一亮。主页显示训练代码也即将推出。TM9速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
不少人已趁热码住,GitHub获星500+。TM9速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

还有网友已经玩上了:TM9速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

围观网友直呼距离成为视频达人只差一个AI。TM9速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

嘴唇也能同步
除了直接放出模型代码,目前MuseV还有demo可体验。TM9速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

demo界面有两种玩法。TM9速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
一种可以上传一张图然后加上Prompt在这张图的基础上进行视频生成;另一种是上传一个参考视频和一张图,使图片中的内容按照视频中的动作运动起来。TM9速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

紧接着下方还有一些参数可以调整。可以自定义视频的时长以及视频的尺寸。TM9速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外值得一提的是,文本、图像到视频的生成结果的所有帧直接由MuseV生成,没有时序超分辨、空间超分辨等任何后处理。TM9速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
而输入视频控制姿态的生成模式下,开发团队表示需要参考视频的首帧条件和参考图像的首帧条件对齐,不然会破坏首帧的信息,效果会更差。所以一般生成流程是:TM9速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
- 确定参考视频;
- 用参考视频的首帧走图生图、controlnet流程,可以使用MJ等各种平台;
- 拿第二步中的生成图、参考视频用MuseV生成视频。

除MuseV,开发团队还表示即将发布一个实时高质量的唇同步模型——MuseTalk,可与MuseV一起搭配使用。TM9速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
MuseV里面长啥样?
技术方面,据了解MuseV是在去年7月左右基于扩散模型实现的技术进展,受到Sora启发,开发团队决定开源MuseV,之后将转向扩散+Transformer方案。TM9速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
也就是说,MuseV是基于扩散模型的虚拟人视频生成框架。TM9速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
模型架构如下图所示:TM9速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

总的来说,MuseV具有以下特点:TM9速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
首先是支持使用新颖的视觉条件并行去噪方案进行无限长度生成,不会再有误差累计的问题,尤其适用于固定相机位的场景。TM9速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
并行去噪算法示意图如下:TM9速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

其次,MuseV提供了基于人物类型数据集训练的虚拟人视频生成预训练模型。TM9速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
而且支持图像到视频、文本到图像到视频、视频到视频的生成;兼容Stable Diffusion文图生成生态系统,包括base_model、lora、controlnet等。TM9速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
还支持多参考图像技术,包括IPAdapter、ReferenceOnly、ReferenceNet、IPAdapterFaceID。TM9速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
参考链接:TM9速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
[1]https://github.com/TMElyralab/MuseVTM9速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
[2]https://twitter.com/Gorden_Sun/status/1774825159939256678TM9速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
北京时间凌晨4点至6点,英伟达联合创始人兼CEO黄仁勋发表主题演讲《见证AI的变革时刻》,正式拉开了2024年英伟达GTC大会的序幕。黄仁勋宣布,正式推出名为Blackwell的新一代AI图形处理器(G
日本《朝日新闻》近日发表题为《深海之光——极端环境是创意宝库》的文章,作者是樱井林太郎,编译如下:在被称为最后未开垦地的深海,有着低温、高压、黑暗等极限环境。能否从这些极限环
据《自然》20日消息称,天文学家对91对恒星所作的光谱分析显示,大约每12个恒星中就有一个可能吞噬了一个行星。在吞噬一个行星后,恒星的化学构成可能发生改变,这个过程被称为“行星吸收”。通过比
记者3月21日从安徽师范大学获悉,该校生命科学学院张方教授课题组通过野外自然抱对、控制实验下抱对以及视频回放等实验手段,证实他们前期提出的,眨眼行为可能在雌性凹耳蛙性选择中起着重要作用
xiaomi在3月21日正式发布了首款“潮流旗舰”定位的产品——xiaomiCivi 4 Pro。该机定位相较以前大幅升级,尤其是性能、影像、AI方面明显提高,这背后的大功臣之一就是第三代骁龙8s。xiaom
3月24日,记者从中国农业科学院获悉,该院蔬菜花卉研究所甘蓝类蔬菜遗传育种创新团队,开发了快速创制细胞质雄性不育系的新方法——“一步法”。相关研究日前发表在国际期刊《自然&midd
。
本文链接:腾讯开源视频生成新工具,论文还没发先上代码的那种http://www.sushuapos.com/show-2-4575-0.html
声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
上一篇: 弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一
下一篇: 英伟达AI新课爆火!免费学习,干货满满