在视频生成领域,运动控制一直是个极具挑战性的课题。传统方法主要依赖两种技术路线:基于2D姿态的方法和基于显式3D参数模型(如SMPL)的方法。2D姿态方法虽然简单直接,但存在根本性局限——它将运动与驱动视角刚性绑定,导致无法实现新视角合成。想象一下,如果我们只能从固定角度观察舞蹈动作,那么任何试图改变视角的尝试都会导致动作变形或失真。
基于SMPL等参数化模型的方法虽然引入了3D结构信息,但同样面临严峻挑战。这些外部重建的3D模型存在固有的不准确性,包括深度模糊和动态失真等问题。更关键的是,当这些带有偏差的3D信号作为强约束注入生成器时,它们会覆盖大规模视频生成模型本身强大的内在3D感知能力,最终限制生成视频的空间一致性和物理合理性。
3DiMo框架的创新之处在于提出了第三种路径:隐式3D感知的运动控制。我们不再依赖外部重建的显式3D模型,而是设计了一个端到端学习的运动编码器,直接从2D驱动帧中提取隐式的、视角无关的运动表示。这种表示通过跨注意力机制语义地注入预训练的视频生成器,与模型的固有空间先验自然对齐。
关键突破:3DiMo不是简单地用另一种方式表示运动,而是从根本上改变了运动控制的范式——从"外部强加的约束"转变为"与生成器协同学习的语义表示"。这使得模型能够保留并充分利用其内在的3D理解能力。
运动编码器是3DiMo框架的核心组件,其设计理念与传统方法有本质区别。我们采用Transformer架构构建了一个"1D tokenizer",将每个驱动帧分割为视觉token,并与5个可学习的潜在token进行交互。经过多层注意力计算后,只保留输出潜在token作为运动表示。
这种设计实现了三个关键目标:
与传统方法采用的基于投影的2D对齐不同,3DiMo通过跨注意力实现运动条件的语义级注入。具体实现上,我们在DiT生成器的每个全自注意力层后追加一个跨注意力层,其中视频token关注运动token,而文本token保持不变。
这种机制带来了两大优势:
人体运动具有明显的层次结构——全局的身体运动和局部的肢体/手势。为完整捕捉这种多尺度特性,我们采用了双编码器设计:
两个编码器的输出token拼接后通过同一套跨注意力层注入生成器,实现统一而精细的运动控制。
真正的3D感知不能仅通过单视角视频学习获得。我们构建了一个包含三种视角配置的大规模数据集:
数据分布策略体现了我们的核心思想:用大规模单视角数据学习自然运动动态,用少量但关键的多视角数据培养真正的3D理解。
我们设计了分阶段的训练策略,逐步引导模型从2D表象理解过渡到3D本质认知:
阶段一:单视角重建
阶段二:混合监督
阶段三:纯多视角强化
早期训练中,我们引入轻量级MLP作为辅助解码器,将运动表示映射到SMPL/MANO参数空间。这一设计基于重要观察:直接端到端训练常导致收敛缓慢,因为:
辅助监督通过以下方式解决问题:
我们在TikTok数据集和自采网络视频上进行了系统评测,对比当前最先进的几种方法:
| 方法类型 | 代表方案 | SSIM | FVD | 运动准确度 |
|---|---|---|---|---|
| 2D姿态基 | AnimateAnyone | 0.7325 | 862.5 | 4.13 |
| 3D显式基 | Uni3C | 0.7185 | 321.9 | 3.72 |
| 3D隐式基(Ours) | 3DiMo | 0.7390 | 297.4 | 4.28 |
关键发现:
影视级角色动画
虚拟现实内容生成
交互式视频编辑
在实际部署中,我们发现以下配置对性能影响显著:
运动token数量:
视角增强强度:
几何监督退火速率:
问题1:生成视频出现肢体扭曲
问题2:相机控制不响应
问题3:手势细节丢失
从实际应用反馈中,我们识别出几个有价值的改进方向:
动态token分配:
当前固定数量的运动token对所有动作一视同仁。引入基于运动复杂度的自适应token分配可能提升效率。
物理约束注入:
在辅助监督中融入简易物理规则(如碰撞避免),可能进一步增强动作合理性。
跨模态运动控制:
结合音频节奏等非视觉线索,实现更丰富的表演生成。
这套框架的核心价值在于它开启了一种可能性——不再将视频生成视为纯粹的2D像素预测,而是作为3D空间中的动态场景理解与合成。随着基础生成模型的不断进化,这种隐式3D感知的范式有望成为下一代内容创作工具的技术基石。