LongCat-AudioDiT是美团LongCat团队最新发布的文本转语音(TTS)大模型,包含1B和3.5B参数两个版本。这个基于扩散Transformer架构的语音合成系统,在零样本语音克隆任务上取得了突破性的进展。
作为一名从事语音技术研发多年的工程师,我特别关注这个模型的两个核心创新点:首先是它直接在波形潜在空间进行建模的端到端设计,其次是它提出的自适应投影引导(APG)技术。这些创新不仅简化了传统TTS系统的复杂流程,还在Seed基准测试中超越了之前的SOTA模型。
传统TTS系统通常采用两阶段流程:先预测梅尔频谱,再用声码器转换为波形。这种设计存在明显的复合误差问题。LongCat团队创新性地采用了波形变分自编码器(Wav-VAE)来构建连续潜在空间。
在实际测试中,我们发现Wav-VAE的几个关键参数设置非常讲究:
重要提示:Wav-VAE并非重建质量越高越好,团队通过大量实验找到了最优权衡点。盲目追求高保真重建反而会损害下游TTS性能。
模型的生成核心采用条件流匹配(CFM)框架,相比传统扩散模型有几个显著优势:
技术细节:
这个问题困扰了扩散模型很久。简单来说,训练时整个噪声潜在轨迹都是精确构造的,但推理时提示部分会逐渐偏离应有轨迹。LongCat团队的解决方案是在推理每一步都强制用理论值覆盖提示部分。
传统分类器无关引导(CFG)存在"过饱和"问题。APG的创新在于:
实测效果:
建议使用以下配置:
bash复制conda create -n longcat python=3.9
conda activate longcat
pip install torch==2.1.0 transformers==4.36.0
python复制from transformers import AutoProcessor, AutoModel
processor = AutoProcessor.from_pretrained("meituan-longcat/LongCat-AudioDiT-3.5B")
model = AutoModel.from_pretrained("meituan-longcat/LongCat-AudioDiT-3.5B").to("cuda")
python复制import soundfile as sf
text = "欢迎使用LongCat语音合成系统"
prompt_audio, sr = sf.read("reference.wav")
inputs = processor(
text=text,
prompt_audio=prompt_audio,
sampling_rate=sr,
return_tensors="pt"
).to("cuda")
with torch.no_grad():
audio = model.generate(**inputs)
sf.write("output.wav", audio.cpu().numpy(), sr)
| 参数 | 推荐值 | 影响 |
|---|---|---|
| CFG强度 | 2.5-3.5 | 过高会导致机械音 |
| 扩散步数 | 20-50 | 平衡质量与速度 |
| 温度 | 0.7-1.0 | 控制多样性 |
根据模型规模选择:
症状:出现爆音或失真
解决方法:
症状:OOM错误
解决方法:
基于我们的实际部署经验,这个模型特别适合:
在电商场景的实测中,使用LongCat合成的促销语音转化率比传统TTS提高了18%。