“神笔马良版 Sora”，阿里团队推出视频 AI 生成框架 Tora：画圈操控物体运动轨迹

8 月 6 日消息，阿里团队最新推出了 AI 视频生成框架 Tora，同时集成了文本、视觉和轨迹条件用于生成视频，是基于轨迹导向的扩散变换器（DiT）技术。

Tora 由一个轨迹提取器（TE）、一个时空 DiT 和一个运动引导融合器（MGF）组成：

TE 使用 3D 视频压缩网络将任意轨迹编码为分层时空运动补丁。
MGF 将运动贴片集成到 DiT 模块中，以生成遵循轨迹的连贯视频。

Tora 无缝契合 DiT 设计，支持制作最长 204 帧、720P 分辨率的视频，可以精确控制不同持续时间、宽高比和分辨率的视频内容。大量实验证明，Tora 在实现高运动保真度方面表现出色，同时还能细致模拟物理世界的运动。

其独特设计理念融合文本、视觉和轨迹条件，精准控制视频内容，模拟物理世界运动规律，为电影特效制作、虚拟现实领域带来无限可能。

附上参考地址

Tora：Trajectory-oriented Diffusion Transformer for Video Generation
GitHub 仓库
技术论文

Published by

风君子

独自遨游何稽首揭天掀地慰生平 View all posts by 风君子

发表回复取消回复