剑指 Sora：Picsart AI 团队联合发布 StreamingT2V 模型，可生成 1200 帧 2 分钟视频

近日，Picsart AI Resarch 等团队联合发布了 StreamingT2V，可以生成长达 1200 帧、时长为 2 分钟的视频，一举超越 Sora。

同时，作为开源世界的强大组件，StreamingT2V 可以无缝兼容 SVD 和 animatediff 等模型。

120 秒超长 AI 视频模型来了！不但比 Sora 长，而且免费开源！

Picsart AI Resarch 等团队联合发布了 StreamingT2V，可以生成长达 1200 帧、时长为 2 分钟的视频，同时质量也很不错。

论文地址：https://arxiv.org/ pdf / 2403.14773.pdf
Demo 试用：https://huggingface.co/ spaces / PAIR / StreamingT2V
开源代码：https://github.com/ Picsart-AI-Research / StreamingT2V

并且，作者表示，两分钟并不是模型的极限，就像之前 Runway 的视频可以延长一样，StreamingT2V 理论上可以做到无限长。

在 Sora 之前，Pika、Runway、Stable Video Diffusion（SVD）等视频生成模型，一般只能生成几秒钟的视频，最多延长到十几秒。

Sora 一出，60 秒的时长直接秒杀一众模型，Runway 的 CEO Cristóbal Valenzuela 当天便发推表示：比赛开始了。

—— 这不，120 秒的超长 AI 视频说来就来了。

这下虽说不能马上撼动 Sora 的统治地位，但至少在时长上扳回一城。

更重要的是，StreamingT2V 作为开源世界的强大组件，可以兼容 SVD 和 animatediff 等项目，更好地促进开源生态的发展：

通过放出的例子来看，目前兼容的效果还稍显抽象，但技术进步只是时间的问题，卷起来才是最重要的~

总有一天我们都能用上「开源的 Sora」，—— 你说是吧？OpenAI。

免费开玩

目前，StreamingT2V 已在 GitHub 开源，同时还在 huggingface 上提供了免费试玩，等不了了，小编马上开测：

不过貌似服务器负载太高，上面的这个不知道是不是等待时间，反正小编没能成功。

目前试玩的界面可以输入文字和图片两种提示，后者需要在下面的高级选项中开启。

两个生成按钮中，Faster Preview 指的是分辨率更低、时长更短的视频。

小编于是转战另一个测试平台（https://replicate.com/ camenduru / streaming-t2v），终于获得一次测试机会，以下是文字提示：

A beautiful girl with short hair wearing a school uniform is walking on the spring campus

不过可能由于小编的要求比较复杂，导致生成的效果多少有点惊悚，诸位可以根据自己的经验自行尝试。

以下是 huggingface 上给出的一些成功案例：

StreamingT2V

「世界名画」

Sora 的横空出世曾带来巨大的轰动，使得前一秒还闪闪发光的 Pika、Runway、SVD 等模型，直接变成了「前 Sora 时代」的作品。

不过就如同 StreamingT2V 的作者所言，pre-Sora days 的模型也有自己的独特魅力。

模型架构

StreamingT2V 是一种先进的自回归技术，可以创建具有丰富运动动态的长视频，而不会出现任何停滞。

它确保了整个视频的时间一致性，与描述性文本紧密对齐，并保持了高帧级图像质量。

现有的文本到视频扩散模型，主要集中在高质量的短视频生成（通常为 16 或 24 帧）上，直接扩展到长视频时，会出现质量下降、表现生硬或者停滞等问题。

AI 生成视频

而通过引入 StreamingT2V，可以将视频扩展到 80、240、600、1200 帧，甚至更长，并具有平滑过渡，在一致性和运动性方面优于其他模型。

StreamingT2V 的关键组件包括：

（i）称为条件注意力模块（CAM）的短期记忆块，它通过注意机制根据从前一个块中提取的特征来调节当前一代，从而实现一致的块过渡；

（ii）称为外观保留模块（APM）的长期记忆块，它从第一个视频块中提取高级场景和对象特征，以防止模型忘记初始场景；

（iii）一种随机混合方法，该方法能够对无限长的视频自动回归应用视频增强器，而不会出现块之间的不一致。

上面是 StreamingT2V 的整体流水线图。在初始化阶段，第一个 16 帧块由文本到视频模型合成。在流式处理 T2V 阶段中，将自动回归生成更多帧的新内容。

最后，在流优化阶段，通过应用高分辨率文本到短视频模型，并配备上面提到的随机混合方法，生成的长视频（600、1200 帧或更多）会自动回归增强。

上图展示了 StreamingT2V 方法的整体结构：条件注意力模块（CAM）作为短期记忆，外观保留模块（APM）扩展为长期记忆。CAM 使用帧编码器对前一个块上的视频扩散模型（VDM）进行条件处理。

CAM 的注意力机制保证了块和视频之间的平滑过渡，同时具有高运动量。

APM 从锚帧中提取高级图像特征，并将其注入到 VDM 的文本交叉注意力中，这样有助于在视频生成过程中保留对象 / 场景特征。

条件注意模块

研究人员首先预训练一个文本到（短）视频模型（Video-LDM），然后使用 CAM（前一个区块的一些短期信息），对 Video-LDM 进行自回归调节。

CAM 由一个特征提取器和一个特征注入器组成，整合到 Video-LDM 的 UNet 中，特征提取器使用逐帧图像编码器 E。

对于特征注入，作者使 UNet 中的每个远程跳跃连接，都关注 CAM 通过交叉注意力生成的相应特征。

CAM 使用前一个块的最后一个 Fconditional 帧作为输入，交叉注意力能够将基本模型的 F 帧调节为 CAM。

相比之下，稀疏编码器使用卷积进行特征注入，因此需要额外的 F − Fzero 值帧（和掩码）作为输入，以便将输出添加到基本模型的 F 帧中。这会导致 SparseCtrl 的输入不一致，导致生成的视频严重不一致。

外观保存模块

自回归视频生成器通常会忘记初始对象和场景特征，从而导致严重的外观变化。

为了解决这个问题，外观保留模块（APM）利用第一个块的固定锚帧中包含的信息来整合长期记忆。这有助于在视频块生成之间维护场景和对象特征。

为了使 APM 能够平衡锚帧的引导和文本指令的引导，作者建议：

（i）将锚帧的 CLIP 图像标记，与文本指令中的 CLIP 文本标记混合，方法是使用线性层将剪辑图像标记扩展到 k = 8，在标记维度上连接文本和图像编码，并使用投影块。

（ii）为每个交叉注意力层引入了一个权重 α∈R（初始化为 0），以使用来自加权总和 x 的键和值，来执行交叉注意力。

自动回归视频增强

为了进一步提高文本到视频结果的质量和分辨率，这里利用高分辨率（1280×720）文本到（短）视频模型（Refiner Video-LDM）来自动回归增强生成视频的 24 帧块。

使用文本到视频模型作为 24 帧块的细化器 / 增强器，是通过向输入视频块添加大量噪声，并使用文本到视频扩散模型去噪来完成的。

然而，独立增强每个块的简单方法会导致不一致的过渡：

作者通过在连续块之间使用共享噪声，并利用随机混合方法来解决这个问题。

对比测试

上图是 DynamiCrafter-XL 和 StreamingT2V 的视觉比较，使用相同的提示。

X-T 切片可视化显示，DynamiCrafter-XL 存在严重的块不一致和重复运动。相比之下，StreamingT2V 则可以无缝过渡、不断发展。

现有方法不仅容易出现时间不一致和视频停滞，而且随着时间的推移，它们会受到物体外观 / 特征变化，和视频质量下降的影响（例如下图中的 SVD）。

原因是，由于仅对前一个块的最后一帧进行调节，它们忽略了自回归过程的长期依赖性。

在上图的视觉比较中（80 帧长度、自回归生成视频），StreamingT2V 生成长视频而不会出现运动停滞。

AI 长视频能做什么

各家都在卷的视频生成，最直观的应用场景，可能是电影或者游戏。

用 AI 生成的电影片段（Pika，Midjourney，Magnific）:

Runway 甚至搞了个 AI 电影节：

不过另一个答案是什么呢？

世界模型

长视频创造的虚拟世界，是 Agent 和人形机器人最好的训练环境，当然前提是足够长，也足够真实（符合物理世界的逻辑）。

也许未来的某一天，那里也会是我们人类的生存空间。

参考资料：

https://github.com/Picsart-AI-Research/StreamingT2V

剑指 Sora：Picsart AI 团队联合发布 StreamingT2V 模型，可生成 1200 帧 2 分钟视频

120 秒超长 AI 视频模型来了！不但比 Sora 长，而且免费开源！

免费开玩

StreamingT2V