内容生成 AI 进入视频时代!
Meta 发布「用嘴做视频」仅一周,谷歌 CEO 劈柴哥接连派出两名选手上场竞争。
也有网友认为,这种技术一旦成熟,会冲击短视频行业。
那么,两个 AI 具体有什么能力和特点,我们分别来看。
Imagen Video:理解艺术风格与 3D 结构
Imagen Video 同样基于最近大火的扩散模型,直接继承自 5 月份的图像生成 SOTA 模型 Imagen。
除了分辨率高以外,还展示出三种特别能力。
首先它能理解并生成不同艺术风格的作品,如“水彩画”或者“像素画”,或者直接“梵高风格”。
它还能理解物体的 3D 结构,在旋转展示中不会变形。
最后它还继承了 Imagen 准确描绘文字的能力,在此基础上仅靠简单描述产生各种创意动画,
这效果,直接当成一个视频的片头不过分吧?
接下来,一系列空间超分辨率(Spatial Super-Resolution)与时间超分辨率(Temporal Super-Resolution)模型接连对视频做扩展处理。
所有 7 种扩散模型都使用了 v-prediction parameterization 方法,与传统方法相比在视频场景中可以避免颜色偏移。
这种方法扩展到一般扩散模型,还使样本质量指标的收敛速度更快。
此外还有渐进式蒸馏(Progressive Distillation),将每次迭代所需的采样步骤减半,大大节省显存消耗。
这些优化技巧加起来,终于使生成高清视频成为可能。
Phenaki:人人都能是“导演”
Phenaki 的论文投了 ICLR 2023 会议,在一周前 Meta 发布 Make-a-video 的时候还是匿名双盲评审状态。
如今信息公开,原来研究团队同样来自谷歌。
在公开的信息中,Phenaki 展示了它交互生成视频的能力,可以任意切换视频的整体风格:高清视频 / 卡通,还能够切换任意场景。
一个提示生成一段视频,这样一来,视频序列便可以沿着提示中描述的时间序列将整个“故事”串在一起。
因为将视频压缩为离散的图像序列,这样也大大减少了 AI 处理标记视频的数量,在一定程度上降低了模型的训练成本。
提到模型训练,和大型图像系统一样,Phenaki 也主要使用文本-图像数据进行训练,此外,研究人员还用 1.4 秒,帧率 8FPS 的短视频文本对 Phenaki 进行训练。
仅仅通过对大量图像文本对以及少量视频文本例子进行联合训练,便能达到突破视频数据集的效果。
Imagen Video 和 Phenaki,谷歌接连放出大招,从文本到视频的 AI 发展势头迅猛。
值得一提的是,Imagen Video 一作表示,两个团队将合作进行下一步研究。
嗯,有的网友已经等不及了。
One More Thing
出于安全和伦理的考虑,谷歌暂时不会发布两个视频生成模型的代码或 Demo。
不过既然发了论文,出现开源复刻版本也只是时间问题。
毕竟当初 Imagen 论文出来没几个月,GitHub 上就出现了 Pytorch 版本。
另外 Stable Diffusion 背后的 StabilityAI 创始人兼 CEO 也说过,将发布比 Meta 的 Make-A-Video 更好的模型,而且是大家都能用上的那种。
当然,每次 AI 有了新进展后都会不可避免地碰到那个话题 ——AI 会不会取代人类。
目前来说,一位影视行业的工作者表示还不到时候:
老实说,作为一个在电影行业工作了十年的人,这个话题令人沮丧。
在他看来,当前的视频生成 AI 在外行看起来已经足够惊艳,不过业内人士会认为 AI 还缺乏对每一个镜头的精细控制。
对于这个话题,StabilityAI 新任首席信息官 Daniel Jeffries 此前撰文表示,AI 最终会带来更多的工作岗位。
如相机的发明虽然取代了大部分肖像画家,但也创造了摄影师,还开辟了电影和电视这样的全新产业。
5 年后再回看的话,反对 AI 就像现在反对 Photoshop 一样奇怪,AI 只不过是另一个工具。
Jeffries 称未来是环境人工智能(Ambient AI)的时代,各个行业、各个领域都会在人工智能的加持下进行发展。
不过现在我们需要的是一个更开放的人工智能环境,也就是说:开源!
最后,如果你现在就想玩一下 AI 生成视频的话,可以先到 HuggingFace 上试试清华与智源实验室的 Cogvideo。
Imagen:
https://imagen.research.google/video/
Phenaki:
https://phenaki.github.io
Cogvideo 试玩:
https://huggingface.co/spaces/THUDM/CogVideo
参考链接:
-
[1]https://twitter.com/sundarpichai/status/1578162216335179778
-
[2]https://twitter.com/hojonathanho/status/1577713864812236817
-
[3]https://news.ycombinator.com/item?id=33098704
-
[4]https://danieljeffries.substack.com/p/the-turning-point-for-truly-open
本文来自微信公众号:量子位 (ID:QbitAI),作者:梦晨、Pine