EEND-TA：基于Transformer的端到端说话人日志化技术解析

人间马戏团

1. 项目概述

EEND-TA（Transformer Attractors for Robust and Efficient End-to-End Neural Diarization）是ASRU2023会议上提出的一种新型端到端说话人日志化方法。该方法针对传统基于LSTM的attractor生成机制存在的顺序依赖和计算效率问题，创新性地采用Transformer架构重构了attractor生成模块。

说话人日志化（Speaker Diarization）的核心任务是回答"谁在什么时候说话"这个问题。在多人对话场景中，准确识别每个说话人的活跃时间段对会议记录、客服质检等应用至关重要。传统方法通常采用分治策略，先进行语音活动检测（VAD），再通过聚类算法分离不同说话人。而端到端神经说话人日志化（EEND）方法则试图用单一神经网络模型直接解决这个问题。

2. 技术背景与问题分析

2.1 EEND技术演进路线

EEND技术发展经历了几个关键阶段：

原始EEND：首次提出端到端框架，但固定说话人数
SA-EEND：引入自注意力机制，增强模型对重叠语音的处理能力
EEND-EDA：通过LSTM encoder-decoder结构生成attractor，支持可变说话人数

2.2 LSTM attractor的局限性

EEND-EDA虽然取得了显著进展，但其基于LSTM的attractor生成机制存在三个主要问题：

顺序敏感性：LSTM本质上是顺序模型，对输入顺序敏感。实践中需要对frame-wise embeddings进行shuffle操作以缓解这个问题。
信息压缩过度：LSTM decoder主要依赖encoder最后的hidden state概括整段对话。当说话人增多或录音变长时，容易丢失早期出现的说话人信息。
推理效率低：LSTM必须串行生成attractor，说话人数越多解码越慢，在长录音、多人场景下效率问题尤为突出。

提示：这些局限性促使研究者探索更高效的attractor生成机制，特别是能够并行处理全局信息的架构。

3. EEND-TA核心设计

3.1 整体架构

EEND-TA采用Conformer编码器-Transformer解码器架构，主要处理流程如下：

输入语音特征X经过Conformer编码器，输出：
- 帧级embeddings E ∈ R^(D×T)
- 全局对话摘要û ∈ R^(D×1)
Combiner模块将û与可学习全局speaker queries G结合，生成初始decoder输入I₀
Transformer decoder以I₀为初始查询，与E进行cross-attention，输出：
- attractors A = [a₁,...,a_(S+1)]
- 存在概率q_s = σ(FF(a_s))
最终通过attractor与帧embedding的匹配得到逐帧说话人概率：
p_t,s = σ(a_s^T e_t)

3.2 关键创新点

3.2.1 Conversational Summary Vector (CSV)

EEND-TA在输入序列最前面拼接一个可学习的special token u₀，经过Conformer处理后，第一个位置的输出û成为整段对话的全局摘要。这与BERT中的[CLS]token类似，但有以下特点：

跳过Conformer的卷积模块，避免局部信息干扰全局表征
通过self-attention与所有语音帧交互，捕获对话级特征
计算公式：X̃ = [u₀,x₁,...,x_T] → [û,e₁,...,e_T] = Conformer(X̃)

3.2.2 全局Speaker Queries (G)

G ∈ R^(D×(S+1))是一组可学习的全局embedding，作为speaker查询原型。其作用类似于目标检测中的object queries：

每列代表一个speaker slot的查询模板
通过训练自动学习speaker的共性特征
与当前对话的CSV结合后生成具体查询

3.2.3 Combiner设计

Combiner负责将全局对话信息注入speaker queries，论文比较了三种实现方式：

加法型：ϕ_add(û,G) = û + G
- 简单但信息融合不够充分
逐元素乘法型：ϕ_mult(û,G) = û * G
- 允许维度级调节
门控放大型：ϕ_amp(û,G) = α·σ(û)*G
- 最优方案，通过sigmoid实现选择性增强

3.2.4 Transformer Decoder

采用标准Transformer decoder结构，但针对说话人日志化任务进行了优化：

Self-attention层：协调不同speaker queries，避免冗余
Cross-attention层：查询帧embeddings E，检索speaker模式
FFN层：增强attractor表征能力

计算过程：
Z = LN(MHA(I_i,I_i,I_i) + I_i)
Z' = LN(MHA(Z,E,E) + Z)
I_{i+1} = LN(FF(Z') + Z')

4. 实验验证

4.1 实验设置

4.1.1 数据准备

阶段	数据	说明
预训练1	LibriSpeech模拟混合	100k条2-speaker, beta=2
预训练2	LibriSpeech模拟混合	400k条1-4-speaker混合
微调	真实数据集	DIHARD III等共979文件

4.1.2 模型配置

参数	值
Encoder	4层Conformer
隐藏维度	256
Attention heads	4
FFN维度	1024
输入特征	23维log Mel
窗长/帧移	25ms/10ms
最大说话人	4

4.2 主要结果

4.2.1 总体性能对比

Attractor类型	NS1-NS4 DER	NS1-NS9 DER
EDA	17.45	21.68
EDA+CSV	17.13	21.34
TA	14.77	18.78

关键发现：

TA在NS1-NS4上相对EDA提升2.68%绝对DER
即使固定最大说话人数为4，在NS1-NS9上仍优于EDA

4.2.2 Decoder深度消融

层数	DER
1	16.30
2	15.93
3	15.30
4	15.40

结论：3层达到最佳平衡点

4.2.3 Combiner比较

类型	DER
None	15.46
phi_add	15.30
phi_mult	15.48
phi_amp	14.77

门控放大型显著优于其他方案

4.3 效率分析

模块	相对速度	参数量(M)
EDA	1.00x	8.1
EDA+CSV	0.94x	8.1
TA	1.28x	10.2

TA虽然参数量增加约26%，但推理速度提升28%

5. 技术优势与局限

5.1 核心优势

全局信息利用：通过Transformer的attention机制，attractor生成过程能够全面考虑所有帧的上下文信息，避免LSTM的顺序依赖问题。
推理效率：并行生成attractor，特别适合长录音和多人场景。实验显示50秒训练的TA优于200秒训练的EDA。
鲁棒性增强：在VoxConverse和AMI SDM1等复杂场景下表现突出，分别取得37.2%和23.55%的相对改进。