设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

全球首个类Sora开源复现方案来了!全面公开训练细节和模型权重

发布时间: 2024-03-26 17:05:38 来源: 量子位

详细上手教程已发布在GitHubaKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

全球首个开源的类Sora架构视频生成模型,来了!aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

整个训练流程,包括数据处理所有训练细节和模型权重,全部开放。aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这就是刚刚发布的Open-Sora 1.0。aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

它带来的实际效果如下,能生成繁华都市夜景中的车水马龙。aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

全球首个类Sora开源复现方案来了!全面公开训练细节和模型权重

还能用航拍视角,展现悬崖海岸边,海水拍打着岩石的画面。aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

全球首个类Sora开源复现方案来了!全面公开训练细节和模型权重

亦或是延时摄影下的浩瀚星空。aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

全球首个类Sora开源复现方案来了!全面公开训练细节和模型权重

自Sora发布以来,由于效果惊艳但技术细节寥寥,揭秘、复现Sora成为了开发社区最热议话题之一。比如Colossal-AI团队推出成本直降46%的Sora训练推理复现流程。aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

短短两周时间后,该团队再次发布最新进展,复现类Sora方案,并将技术方案及详细上手教程在GitHub上免费开源。aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

那么问题来了,复现Sora如何实现?aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Open-Sora 开源地址:https://github.com/hpcaitech/Open-SoraaKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

全面解读Sora复现方案

Sora复现方案包括四个方面:aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • 模型架构设计
  • 训练复现方案
  • 数据预处理
  • 高效训练优化策略

模型架构设计

模型采用了Sora同源架构Diffusion Transformer (DiT) 。aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

它以采用DiT架构的高质量开源文生图模型PixArt-α为基座,在此基础上引入时间注意力层,将其扩展到视频数据上。aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

具体来看,整个架构包括一个预训练好的VAE,一个文本编码器和一个利用空间-时间注意力机制的STDiT (Spatial Temporal Diffusion Transformer)模型。aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

其中,STDiT 每层的结构如下图所示。aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

它采用串行的方式在二维的空间注意力模块上叠加一维的时间注意力模块,用于建模时序关系。在时间注意力模块之后,交叉注意力模块用于对齐文本的语意。aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

与全注意力机制相比,这样的结构大大降低了训练和推理开销aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

与同样使用空间-时间注意力机制的 Latte模型相比,STDiT 可以更好的利用已经预训练好的图像 DiT 的权重,从而在视频数据上继续训练。aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

全球首个类Sora开源复现方案来了!全面公开训练细节和模型权重aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

△STDiT结构示意图aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

整个模型的训练和推理流程如下。aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

据了解,在训练阶段首先采用预训练好的Variational Autoencoder (VAE)的编码器将视频数据进行压缩,然后在压缩之后的潜在空间中与文本嵌入(text embedding)一起训练STDiT扩散模型。aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在推理阶段,从VAE的潜在空间中随机采样出一个高斯噪声,与提示词嵌入(prompt embedding)一起输入到STDiT中,得到去噪之后的特征,最后输入到VAE的解码器,解码得到视频。aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

全球首个类Sora开源复现方案来了!全面公开训练细节和模型权重aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

△模型训练流程aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

训练复现方案

在训练复现部分,Open-Sora参考了Stable Video Diffusion (SVD)。aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一共分为3个阶段:aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  1. 大规模图像预训练;
  2. 大规模视频预训练;
  3. 高质量视频数据微调。

每个阶段都会基于前一个阶段的权重继续训练。aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

相比于从零开始单阶段训练,多阶段训练通过逐步扩展数据,更高效地达成高质量视频生成的目标。aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

全球首个类Sora开源复现方案来了!全面公开训练细节和模型权重

训练方案三阶段aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

第一阶段是大规模图像预训练aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

团队利用互联网上丰富的图像数据和文生图技术,先训练出一个高质量的文生图模型,将该模型作为下一阶段视频预训练的初始化权重。aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

同时,由于目前没有高质量的时空VAE,他们采用Stable Diffusion预训练好的图像VAE。aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这样不仅能保障初始模型的优越性能,还能显著降低视频预训练的整体成本。aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

第二阶段是大规模视频预训练aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这一阶段主要增加模型的泛化能力,有效掌握视频的时间序列关联。aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

它需要使用大量视频数据训练,并且保障视频素材的多样性。aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

同时,第二阶段的模型在第一阶段文生图模型的基础上加入了时序注意力模块,用于学习视频中的时序关系。其余模块与第一阶段保持一致,并加载第一阶段权重作为初始化,同时初始化时序注意力模块输出为零,以达到更高效更快速的收敛。aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Colossal-AI团队使用了PixArt-alpha的开源权重作为第二阶段STDiT模型的初始化,以及采用了T5模型作为文本编码器。他们采用了256×256的小分辨率进行预训练,进一步增加了收敛速度,降低训练成本。aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

全球首个类Sora开源复现方案来了!全面公开训练细节和模型权重aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

△Open-Sora生成效果(提示词:水中世界的镜头,镜头中一只海龟在珊瑚礁间悠然游弋)aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

第三阶段是高质量视频数据微调aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

据介绍,这一阶段能显著提升模型的生成质量。使用的数据规模比上一阶段降低一个量级,但是视频的时长、分辨率和质量都更高。aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

通过这种方式进行微调,能实现视频生成从短到长、从低分辨率到高分辨率、从低保真度到高保真度的高效扩展。aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

值得一提的是,Colossal-AI还详细透露了每阶段的资源使用情况。aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在Open-Sora的复现流程中,他们使用了64块H800进行训练。第二阶段的训练量一共是 2808 GPU hours,约合7000美元,第三阶段的训练量是1920 GPU hours,大约4500美元。经过初步估算,整个训练方案成功把Open-Sora复现流程控制在了1万美元左右。aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

数据预处理

为了进一步降低Sora复现的门槛和复杂度,Colossal-AI团队在代码仓库中还提供了便捷的视频数据预处理脚本,让大家可以轻松启动Sora复现预训练。aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

包括公开视频数据集下载、长视频根据镜头连续性分割为短视频片段、使用开源大语言模型LLaVA生成精细的提示词。aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

他们提供的批量视频标题生成代码可以用两卡 3 秒标注一个视频,并且质量接近于 GPT-4VaKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最终得到的视频/文本对可直接用于训练。借助他们在GitHub上提供的开源代码,可以轻松地在自己的数据集上快速生成训练所需的视频/文本对,显著降低了启动Sora复现项目的技术门槛和前期准备。aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

全球首个类Sora开源复现方案来了!全面公开训练细节和模型权重

高效训练加持

除此之外,Colossal-AI团队还提供了训练加速方案。aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

通过算子优化和混合并行等高效训练策略,在处理64帧、512×512分辨率视频的训练中,实现了1.55倍的加速效果aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

同时,得益于Colossal-AI的异构内存管理系统,在单台服务器上(8H800)可以无阻碍地进行1分钟的1080p高清视频训练任务。aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

全球首个类Sora开源复现方案来了!全面公开训练细节和模型权重

而且团队还发现STDiT模型架构在训练时也展现出卓越的高效性。aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

和采用全注意力机制的DiT相比,随着帧数的增加,STDiT实现了高达5倍的加速效果,这在处理长视频序列等现实任务中尤为关键。aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

全球首个类Sora开源复现方案来了!全面公开训练细节和模型权重

团队和量子位透露,他们将长期更新优化Open-Sora的相关解决方案和动态。未来将使用更多视频训练数据,以生成更高质量、更长时长的视频内容,并支持多分辨率特性。aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

实际应用方面,团队透露将推进在电影、游戏、广告等领域落地。aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

感兴趣的开发者们,可访问GitHub项目了解更多~aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Open-Sora 开源地址:https://github.com/hpcaitech/Open-SoraaKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

参考链接:
[1]https://arxiv.org/abs/2212.09748 Scalable Diffusion Models with Transformers
[2]https://arxiv.org/abs/2310.00426 PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis
[3]https://arxiv.org/abs/2311.15127 Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets
[4]https://arxiv.org/abs/2401.03048 Latte: Latent Diffusion Transformer for Video Generation
[5]https://huggingface.co/stabilityai/sd-vae-ft-mse-originalaKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
[6]https://github.com/google-research/text-to-text-transfer-transformeraKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
[7]https://github.com/haotian-liu/LLaVAaKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
[8]https://hpc-ai.com/blog/open-sora-v1.0aKN速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

今年全国两会期间,人工智能成为热点话题,“人工智能+”首次被写入政府工作报告。一头连着数字经济发展大局,一头连着行业变革与创新,“人工智能+”既是新质生产力发展的“新引擎”,也是产业和消费 患者只需吸入特制的“氙气”,3.5秒后一幅人体肺部磁共振3D影像就呈现出来。影像中,气体可抵达肺部的位置清晰可见,患者的肺部微结构、气体交换功能情况等一目了然。日前,中国科学院精密测量科学 据阿根廷布宜诺斯艾利斯经济新闻网报道,一项国际研究发现,阿尔茨海默病的早期症状可能表现在视力上。研究显示,即便眼科检查结果正常,但阅读、估计距离和触及物体的困难都是可能揭示阿尔茨海默病 自2019年以来,科学家已经在国际空间站上培育出了包括人类大脑、心脏和乳房在内的多个类器官模型。这些类器官通常利用人类干细胞培育而成,在一系列化学生长物质的帮助下,干细胞可发育成类似人体 今年3月23日是第64个世界气象日,主题是“气候行动最前线”。面对愈加频繁的极端天气和全球变暖等气候危机,减缓气候变化已刻不容缓。发展新能源是应对气候变化的重要举措之一,而气象服务对于新 3月22日,在2024低碳建筑产业论坛上,北京首例负碳示范建筑——首程时代中心负碳示范建筑正式亮相。活动现场,中国建筑节能协会、北京绿色交易所分别授予首程时代中心负碳示范建筑“零 。

本文链接:全球首个类Sora开源复现方案来了!全面公开训练细节和模型权重http://www.sushuapos.com/show-2-4206-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 大模型落地“诸神之战”,场景玩家先杀出重围了

下一篇: 英伟达新核弹B200发布,一台服务器顶一个超算,AI推理30倍加速

热门资讯

  • 数字化管理已在故宫广泛应用

    在今天的故宫,工作人员使用的数字化办公平台名叫“内务辅”,这款应用的开发者,是与故宫博物院合作的钉钉(中国)信息技术有限公司(以下简称“钉钉”)。3月1

  • 培育一批专利产业化样板企业

    近日,国家知识产权局等五部门联合印发了《专利产业化促进中小企业成长计划实施方案》(以下简称《实施方案》)。《实施方案》提出,到2025年底,中小企业知

  • 每12个恒星或有一个吞过行星

    据《自然》20日消息称,天文学家对91对恒星所作的光谱分析显示,大约每12个恒星中就有一个可能吞噬了一个行星。在吞噬一个行星后,恒星的化学构成可能发

  • “量子龙卷风”吹开黑洞研究之门

    英国科学家首次创造了一个新颖的实验平台,即“量子龙卷风”。它能模拟超流体氦中的黑洞,使研究人员能更详细地观察类似黑洞的行为以及与周围环境的相

  • 科研人员在大别山区发现植物新物种

    据中国科学院武汉植物园消息,我国科研人员在大别山区开展植物多样性科学考察时,发现了天门冬科天门冬属新物种,并将其命名为大别山天门冬。相关研究成

  • 太空培育类器官或带来疾病新疗法

    自2019年以来,科学家已经在国际空间站上培育出了包括人类大脑、心脏和乳房在内的多个类器官模型。这些类器官通常利用人类干细胞培育而成,在一系列化

  • 饭后想吃零食或因神经元过度活跃

    那些在吃完一顿饱饭后不久就在冰箱里翻找零食的人,可能不是胃口好,而是因为寻找食物的神经元过度活跃的缘故。美国加州大学洛杉矶分校心理学家在老鼠

  • 旗舰效果下放!OPPO一加新品千元机曝光:IP68防水+超大电池

    3月22日消息,今天,数码博主“数码闲聊站”曝光了一部新款千元机的部分配置。该博主表示,欧加(OPPO/一加)有个5500mAh超大电池的千元曲屏机,正在测试IP68级防

  • 为什么有人以为安卓拍照可以打iPhone 答案就这么直接

    聊到安卓电话的拍照,大部分用户还是比较认可的,而在与iPhone电话的对比中,用户也普遍以为安卓电话的拍照水平要比iPhone更好,当然这一说法也并非空穴来风,其

  • 盲视技术已在猴子身上见效!马斯克脑机接口公司新目标:让盲人重见光明

      盲视技术已在猴子身上见效!马斯克脑机接口公司新目标:让盲人重见光明  澎湃新闻记者 吴遇利  Neuralink新技术或将造福数千万名失明人士。  当地时间3月21日,特斯拉C

  • 站在“气候行动最前线”,我们该如何行动?

    联合国政府间气候变化专门委员会(IPCC)最新发布的评估报告显示,全球温升预计在2021年至2040年内达到1.5℃。报告指出,自IPCC第五次评估报告发布以来,全

  • “穿上就走”的通用外骨骼面世

    美国佐治亚理工学院机械工程师开发了一种控制机器人外骨骼的通用方法。无需专门训练、特别校准,对复杂算法进行调整后,用户穿上外骨骼就可以直接行走

推荐资讯

  • 日榜
  • 周榜
  • 月榜