最近两年,音频生成领域正在经历一场静悄悄的革命。作为一名长期关注语音合成技术发展的从业者,我亲眼见证了传统TTS系统从复杂的多模块架构(如Tacotron、FastSpeech等)向基于大语言模型(LLM)的统一架构转变的过程。这种新型架构不仅在语音合成质量上实现了突破,更令人兴奋的是,它首次实现了单一模型同时处理TTS、ASR、语音转换等多种任务的能力。
这种架构的核心思想出奇地简单:将音频视为一种特殊的"语言"。就像LLM能够理解和生成不同的人类语言一样,经过适当训练的LLM同样可以理解和生成这种"音频语言"。这种统一化的处理方式带来了前所未有的灵活性和扩展性,使得像Kimi-Audio这样的模型能够仅通过调整训练数据就实现多任务处理,而无需修改模型架构。
现代LLM-based音频系统的架构主要由两个关键组件构成:
这种架构之所以强大,在于它将音频生成问题转化为了序列预测问题——这正是LLM最擅长的领域。通过这种方式,我们可以直接利用LLM领域已有的各种优化技术(如KV缓存、量化、高效注意力机制等),而不需要为音频任务专门设计复杂的模型结构。
传统TTS系统通常采用级联式架构:
code复制文本前端 → 声学模型 → 声码器
每个模块都需要专门设计和训练,且模块间的误差会不断累积。相比之下,LLM-based架构:
code复制[文本token] → LLM → [音频token] → 神经编解码器 → 波形
实现了真正的端到端处理,所有组件可以联合优化,大大简化了系统复杂度。
神经编解码器在系统中扮演着"翻译官"的角色,它的核心职责包括:
这个过程中,编解码器需要在压缩率(token数量)和音频质量之间寻找最佳平衡点。
目前主流的神经编解码器在几个关键维度上存在显著差异:
| 编解码器 | 采样率 | token/秒 | 码本大小 | 码本数量 | 类型 |
|---|---|---|---|---|---|
| XCodec2 | 16kHz | 50 | 65536 | 1 | 单次 |
| Snac | 24kHz | 83 | 8192 | 1 | 单次 |
| Cosy | 24kHz | 25 | 8192 | 1 | 扩散 |
| DAC | 44.1kHz | 774 | 1024 | 8 | 单次 |
实际选择时需要考虑:更高的采样率带来更好音质但增加计算负担;更低的token率提升生成速度但可能损失细节;单码本更简单但多码本可能提供更丰富表征。
单次通过(Single-pass)编解码器:
扩散型(Diffusion-based)编解码器:
在实际项目中,我们通常会根据应用场景做出权衡。例如,客服语音系统可能选择XCodec2以保证实时性,而影视配音则可能选用CosyVoice追求最佳音质。
LLM处理音频token的核心创新在于将音频视为一种特殊语言:
这种方法的美妙之处在于,它不需要修改LLM的基础架构。我们只是向模型展示了另一种"语言",而Transformer架构本身就能很好地处理这种多模态信息。
通过这种设计,单个LLM可以同时支持:
这种统一性极大地简化了系统复杂度。例如,Kimi-Audio就展示了单一模型如何处理所有这些任务,而传统方法需要为每个任务设计独立模型。
在训练这类模型时,有几个关键经验值得分享:
Orpheus是这一领域的开创性工作,其设计特点包括:
其实验表明,即使在有限数据(100小时)下训练,这种架构也能产生令人惊讶的自然语音。
CosyVoice采用了不同的技术路线:
这种设计特别适合需要高度自然度的场景,如有声书生成。
选择编解码器时,建议考虑以下因素:
优质训练数据应具备:
问题1:生成的语音不连贯
问题2:语音克隆效果差
问题3:推理速度慢
虽然LLM-based音频生成已取得显著进展,但仍有多个值得探索的方向:
在实际项目中,我们已经看到这种架构带来的巨大优势。它不仅简化了系统设计,更重要的是开辟了音频AI的新范式——将语音视为一种可编程的媒介,而LLM则成为这种媒介的"编译器"。这种思维方式的变化,可能比任何具体的技术突破都更有深远意义。