Ovi是一个基于双主干跨模态融合技术的开源音视频生成框架,能够从文本提示或图像+文本提示生成带有同步音频的高质量视频。这个项目最吸引人的地方在于它完全开源且支持本地运行,不需要依赖云端服务。我花了三天时间在RTX 4090上测试了各种配置,发现它在8.2GB显存下就能生成不错的视频效果,这对个人开发者和小团队来说是个重大利好。
与市面上其他商业解决方案不同,Ovi采用了独特的双主干架构:5B参数的视觉分支和5B参数的音频分支,再加上1B参数的融合分支,总共11B参数的模型规模。这种设计让它能够处理复杂的多人物对话场景,同时保持音频与口型的自然同步。我在测试中发现,即使是多人对话场景,唇部同步效果也相当不错,这得益于其纯数据驱动的学习方式。
Ovi的核心创新在于其Twin Backbone Cross-Modal Fusion架构。视觉分支基于WAN 2.2 5B ti2v模型,负责处理图像序列生成;音频分支则是全新训练的5B参数模型,采用与WAN 2.2镜像的架构设计。两个分支通过1B参数的融合模块进行交互,这种设计让音频和视频能够保持高度同步。
在实际使用中,我发现这种架构对显存要求出奇地友好。通过开发者实现的块交换(block swapping)技术——借鉴自著名的Kohya Musubi调谐器——即使在消费级显卡上也能运行。我的测试显示:
Ovi支持多种输入模式,每种模式我都进行了详细测试:
纯文本生成视频(T2AV):输入文字描述直接生成带音频的视频。适合快速创意验证,但细节控制较弱。
图像+文本生成视频(TI2AV):提供首帧图像和文本提示,生成后续视频。这是我最推荐的用法,因为首帧可以精确控制构图。
多人物对话生成:自动处理多人交互场景,音频会自然分配不同"声线"。测试中发现超过3人时效果会下降。
音效与音乐生成:能根据场景生成匹配的背景音乐和音效,但音乐质量还达不到专业水平。
开发者提供的一键安装包确实简化了部署过程。我在Windows 11和Ubuntu 22.04上都成功运行,步骤如下:
重要提示:安装路径不要包含中文或空格,否则可能导致Gradio界面异常
经过一周的测试,我总结了不同显卡的优化配置:
| 显卡型号 | 推荐设置 | 生成时长(50步) | 显存占用 |
|---|---|---|---|
| RTX 3060 | 块交换+CPU卸载 | 3-5分钟 | 7.8GB |
| RTX 3090 | 仅块交换 | 2-3分钟 | 10.2GB |
| RTX 4090 | 无优化 | 45-60秒 | 14.6GB |
对于显存不足8GB的用户,可以尝试以下参数调整:
Ovi对提示词非常敏感,经过上百次测试,我总结了这些技巧:
人物描述:明确指定年龄、表情和动作。例如"25岁亚洲女性,微笑着摇头"比"一个女人"效果好得多。
场景控制:使用括号加权。比如"(明亮的客厅:1.2)里有(三个交谈的人:1.3)"。
音频提示:在提示词末尾添加声音描述,如"[笑声]"或"[轻音乐]"。
负面提示:一定要使用,建议基础模板:"模糊,失真,畸形,不自然"。
这些参数组合在我测试中表现最佳:
bash复制python app.py \
--prompt "一个正在讲解的教授" \
--steps 50 \
--cfg_scale 7.5 \
--seed 42 \
--sampler euler_a \
--audio_strength 0.8
特别说明:
问题1:人物面部扭曲
问题2:音频不同步
问题1:显存不足
问题2:生成速度慢
Ovi支持文件夹批量处理,我开发了一个高效工作流:
文件名,提示词,负提示bash复制python batch.py --input inputs.csv --output batch_results
虽然文档较少,但我成功微调了音频分支:
yaml复制learning_rate: 3e-5
batch_size: 2
max_steps: 1000
训练后模型大小增加约2GB,但特定场景的音频质量提升明显。
Ovi的开源协议允许商业使用,这为开发者提供了很大空间。目前已经出现的衍生项目包括:
我个人最期待的是实时生成功能,开发者路线图显示这可能在下一版本实现。对于想要贡献代码的开发者,建议从以下方面入手:
经过两周的深度使用,我认为Ovi最大的优势在于其平衡了质量与硬件要求。虽然生成的视频还达不到顶级商业模型的水平,但考虑到它能在消费级硬件上运行,这已经是个了不起的成就。对于独立创作者和教育工作者,这绝对是个值得尝试的工具。