在计算机视觉和人工智能领域,让机器同时理解二维视觉内容和三维几何结构一直是个重大挑战。香港科技大学研究团队提出的One4D系统,通过创新的架构设计,实现了从单张图片生成完整4D(3D空间+时间)场景的能力。这项技术突破的核心在于解决了传统方法中RGB视觉信息与几何信息相互干扰的问题。
One4D的工作原理可以类比为人类大脑处理视觉信息的方式。当我们看到一张照片时,不仅能识别其中的物体和颜色,还能自动脑补出场景的三维结构和可能的动态变化。比如看到一张桌子的照片,我们能够想象出它的高度、深度,以及从不同角度观看时的样子。One4D正是试图让AI具备这种综合理解能力。
传统视频生成模型存在明显的局限性。它们就像只会画平面图的艺术家,虽然能创造出视觉效果不错的视频,但对场景的空间结构缺乏准确理解。这导致生成的视频在视角变化时容易出现几何失真,难以保持三维一致性。One4D的革命性在于,它不仅能生成逼真的RGB视频,还能同步输出精确的几何信息,为构建真正的4D场景理解奠定了基础。
解耦LoRA控制(DLC)是One4D最具创新性的技术之一。传统方法处理RGB和几何信息时,通常采用简单的拼接方式,这就像让一个人同时用左右手画不同的图形,效果往往不尽如人意。One4D的解决方案是为两种信息建立独立但协调的处理通道。
具体实现上,系统为RGB和几何信息分别配置了专门的LoRA适配器。LoRA(Low-Rank Adaptation)是一种参数高效的微调技术,它通过在预训练模型的权重矩阵中添加低秩适配器来实现特定任务的优化。在One4D中,RGB分支和几何分支各自拥有685M参数,共享基础模型的14B参数。
这种设计的精妙之处在于"零初始化控制链接"。这些链接初始权重为零,确保训练开始时两个分支完全独立。随着训练进行,链接逐渐学会传递关键跨模态信息,实现像素级的精确对齐。实验表明,这种设计相比传统拼接方法,在视频质量和几何准确性上都有显著提升。
统一掩码条件(UMC)技术让One4D能够灵活应对不同输入场景。无论是单张图片、稀疏帧序列还是完整视频,系统都能通过统一的框架处理。这就像给模型配备了智能开关,可以根据输入自动调整工作模式。
技术实现上,系统会将输入统一编码为"条件视频"。对于单图输入,只有第一帧包含有效信息;稀疏输入则在对应位置保留关键帧;完整视频则使用所有帧。同时生成的二值掩码明确标记哪些部分需要生成,哪些需要保留。
特别值得注意的是几何信息的处理策略。系统要求所有XYZ几何帧都必须完整生成,不接受直接条件输入。这种设计避免了噪声干扰,让几何分支专注于学习准确的结构表示。条件信息通过DLC的跨模态链接间接影响几何生成,确保与RGB条件的一致性。
研究团队构建了包含约34000个视频片段、总计200万帧的综合数据集。数据来源采用"虚实结合"策略:50%来自合成数据集(OmniWorld-Game、BEDLAM等),提供精确的几何标注;50%来自真实视频(SpatialVID),使用Geo4D进行伪标注,增强模型对真实场景的适应能力。
数据预处理阶段的关键是对几何信息的标准化处理。深度图首先转换为以第一帧为参考的全局3D点云,然后归一化到[-1,1]范围。这种处理确保了不同尺度场景的一致性,让模型能够学习到尺度无关的几何表示。
每个视频片段都配有Gemini-2.0-Flash生成的详细文本描述。这些描述帮助建立视觉与语言的对应关系,增强模型的内容理解能力。视频被切分为约81帧的片段,平衡时序信息与计算效率。
One4D基于Wan2.1-Fun-V1.1-14B-InP模型构建,这是一个针对视频修复任务优化的强大基础模型。在此基础上,研究团队添加了约935.7M可训练参数,包括:
训练采用8张NVIDIA H800 GPU,每GPU批量大小为1,梯度累积步数4,学习率1×10^-4。整个训练仅需5500步,效率比传统方法提升两个数量级。这种高效性得益于巧妙的架构设计和预训练模型的强大基础。
训练过程中,系统会动态切换不同任务模式:35%单图输入、30%稀疏帧输入、35%完整视频输入。这种多任务策略让模型获得了处理多种输入类型的能力,同时保持各任务间的知识共享。
生成4D内容后,One4D会进行后优化处理,确保几何信息的全局一致性。这个过程需要从生成的点图中恢复相机参数和深度图,面临的主要挑战是帧间细微偏差的累积。
优化目标包括四组参数:
优化采用加权损失函数,主要包含:
实验表明,这种后优化能显著提升几何一致性,特别是在长序列生成中。优化后的相机轨迹和深度图可直接用于下游应用,如SLAM、AR等。
研究团队设计了三种测试场景评估One4D性能:
消融实验验证了各组件的重要性:
One4D技术在多个领域具有广泛应用前景:
One4D代表了AI发展的几个重要方向:
这项研究也为未来工作指明了方向:
One4D的成功证明,通过精巧的架构设计,AI系统可以同时具备专业性和通用性,在处理复杂多模态任务时保持高效。这种平衡各种需求的能力,将是下一代AI系统的核心特征。