EEND-TA(Transformer Attractors for Robust and Efficient End-to-End Neural Diarization)是ASRU2023会议上提出的一种新型端到端说话人日志化方法。该方法针对传统基于LSTM的attractor生成机制存在的顺序依赖和计算效率问题,创新性地采用Transformer架构重构了attractor生成模块。
说话人日志化(Speaker Diarization)的核心任务是回答"谁在什么时候说话"这个问题。在多人对话场景中,准确识别每个说话人的活跃时间段对会议记录、客服质检等应用至关重要。传统方法通常采用分治策略,先进行语音活动检测(VAD),再通过聚类算法分离不同说话人。而端到端神经说话人日志化(EEND)方法则试图用单一神经网络模型直接解决这个问题。
EEND技术发展经历了几个关键阶段:
EEND-EDA虽然取得了显著进展,但其基于LSTM的attractor生成机制存在三个主要问题:
顺序敏感性:LSTM本质上是顺序模型,对输入顺序敏感。实践中需要对frame-wise embeddings进行shuffle操作以缓解这个问题。
信息压缩过度:LSTM decoder主要依赖encoder最后的hidden state概括整段对话。当说话人增多或录音变长时,容易丢失早期出现的说话人信息。
推理效率低:LSTM必须串行生成attractor,说话人数越多解码越慢,在长录音、多人场景下效率问题尤为突出。
提示:这些局限性促使研究者探索更高效的attractor生成机制,特别是能够并行处理全局信息的架构。
EEND-TA采用Conformer编码器-Transformer解码器架构,主要处理流程如下:
输入语音特征X经过Conformer编码器,输出:
Combiner模块将û与可学习全局speaker queries G结合,生成初始decoder输入I₀
Transformer decoder以I₀为初始查询,与E进行cross-attention,输出:
最终通过attractor与帧embedding的匹配得到逐帧说话人概率:
p_t,s = σ(a_s^T e_t)
EEND-TA在输入序列最前面拼接一个可学习的special token u₀,经过Conformer处理后,第一个位置的输出û成为整段对话的全局摘要。这与BERT中的[CLS]token类似,但有以下特点:
G ∈ R^(D×(S+1))是一组可学习的全局embedding,作为speaker查询原型。其作用类似于目标检测中的object queries:
Combiner负责将全局对话信息注入speaker queries,论文比较了三种实现方式:
加法型:ϕ_add(û,G) = û + G
逐元素乘法型:ϕ_mult(û,G) = û * G
门控放大型:ϕ_amp(û,G) = α·σ(û)*G
采用标准Transformer decoder结构,但针对说话人日志化任务进行了优化:
计算过程:
Z = LN(MHA(I_i,I_i,I_i) + I_i)
Z' = LN(MHA(Z,E,E) + Z)
I_{i+1} = LN(FF(Z') + Z')
| 阶段 | 数据 | 说明 |
|---|---|---|
| 预训练1 | LibriSpeech模拟混合 | 100k条2-speaker, beta=2 |
| 预训练2 | LibriSpeech模拟混合 | 400k条1-4-speaker混合 |
| 微调 | 真实数据集 | DIHARD III等共979文件 |
| 参数 | 值 |
|---|---|
| Encoder | 4层Conformer |
| 隐藏维度 | 256 |
| Attention heads | 4 |
| FFN维度 | 1024 |
| 输入特征 | 23维log Mel |
| 窗长/帧移 | 25ms/10ms |
| 最大说话人 | 4 |
| Attractor类型 | NS1-NS4 DER | NS1-NS9 DER |
|---|---|---|
| EDA | 17.45 | 21.68 |
| EDA+CSV | 17.13 | 21.34 |
| TA | 14.77 | 18.78 |
关键发现:
| 层数 | DER |
|---|---|
| 1 | 16.30 |
| 2 | 15.93 |
| 3 | 15.30 |
| 4 | 15.40 |
结论:3层达到最佳平衡点
| 类型 | DER |
|---|---|
| None | 15.46 |
| phi_add | 15.30 |
| phi_mult | 15.48 |
| phi_amp | 14.77 |
门控放大型显著优于其他方案
| 模块 | 相对速度 | 参数量(M) |
|---|---|---|
| EDA | 1.00x | 8.1 |
| EDA+CSV | 0.94x | 8.1 |
| TA | 1.28x | 10.2 |
TA虽然参数量增加约26%,但推理速度提升28%
全局信息利用:通过Transformer的attention机制,attractor生成过程能够全面考虑所有帧的上下文信息,避免LSTM的顺序依赖问题。
推理效率:并行生成attractor,特别适合长录音和多人场景。实验显示50秒训练的TA优于200秒训练的EDA。
鲁棒性增强:在VoxConverse和AMI SDM1等复杂场景下表现突出,分别取得37.2%和23.55%的相对改进。
说话人数上限:仍需要预设最大说话人数(实验中S=4),未真正解决无限说话人问题。
长上下文处理:虽然优于EDA,但对超长录音(>30分钟)的全局建模能力仍有提升空间。
计算资源:Transformer decoder增加了模型复杂度,在边缘设备部署时需要量化等优化。
硬件选择:推荐使用支持高效attention计算的硬件(如带有Tensor Core的GPU)
实时性处理:
内存优化:
数据增强:
模型压缩:
领域适配:
动态说话人数:探索基于强化学习或迭代refinement的attractor生成机制
多模态融合:结合视觉信息(视频会议场景)或文本信息(ASR输出)
自监督预训练:开发适合说话人日志化任务的预训练目标
边缘计算优化:设计更适合移动设备的轻量级架构
注意:实际部署时需要根据具体场景的说话人数量分布、音频质量和延迟要求进行针对性调优。对于2-4人的标准会议场景,EEND-TA当前已能提供较好的开箱即用体验。