基于ATT-LSTM的语音情感识别系统设计与实现

单单必成

1. 项目概述：基于ATT-LSTM的语音情感分类系统

在人工智能领域，语音情感识别是一个极具挑战性的研究方向。去年我指导的一个本科生团队成功实现了基于注意力机制的双向LSTM（ATT-LSTM）语音情感分类系统，测试准确率达到了95%以上。这个毕设项目不仅完整实现了从数据处理到模型部署的全流程，还创新性地将注意力机制引入传统LSTM网络，显著提升了模型对语音关键特征的捕捉能力。

语音情感分类的核心价值在于让人机交互更加自然。想象一下，当智能客服能准确识别用户的愤怒情绪并转接人工服务，或者在线教育平台能根据学生的语音情绪调整教学节奏——这正是我们项目的现实意义所在。本项目特别适合以下几类读者：

计算机/人工智能专业的本科生寻找高质量的毕设课题
对语音处理和深度学习结合感兴趣的研究人员
需要快速实现情感识别POC的工程团队

2. 技术架构设计

2.1 整体技术栈选型

我们采用前后端分离的B/S架构，这是经过多方考量后的最优选择：

后端技术栈：

Spring Boot 2.7 + MyBatis Plus：简化后端开发，自动生成基础CRUD代码
Python Flask：作为模型推理服务，与Java主服务通过RESTful API交互
MySQL 8.0：存储用户数据和标注结果

前端技术栈：

Vue 3 + Element Plus：构建响应式管理界面
ECharts：可视化模型评估指标

机器学习框架：

TensorFlow 2.8 + Keras：模型训练和推理
Librosa + PyAudio：语音特征提取

技术选型心得：Spring Boot的自动配置特性让我们节省了约40%的后端开发时间，而Vue3的Composition API则使前端状态管理更加清晰。这些都是我们在多个项目中验证过的稳定组合。

2.2 核心模型架构

我们的ATT-LSTM模型结构如下图所示（图示见原图1），包含以下几个关键组件：

输入层：接受39维MFCC特征（包括一阶和二阶差分）
BiLSTM层：双向LSTM，每方向128个单元，捕获时序特征
Attention层：计算各时间步的注意力权重
全连接层：输出6类情感概率分布

python复制# 核心模型代码片段
inputs = Input(shape=(None, 39))
x = Bidirectional(LSTM(128, return_sequences=True))(inputs)
x = AttentionLayer()(x)  # 自定义注意力层
outputs = Dense(6, activation='softmax')(x)
model = Model(inputs, outputs)

3. 关键实现细节

3.1 语音特征工程

我们测试了多种特征组合后发现：

特征类型	维度	优点	缺点
MFCC	13	表征频谱包络	丢失相位信息
Chroma	12	反映和声特征	对噪声敏感
MEL谱	128	保留细节特征	维度灾难

最终选择MFCC+Δ+ΔΔ组合，通过以下代码提取：

python复制def extract_features(file_path):
    y, sr = librosa.load(file_path)
    mfcc = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=13)
    delta = librosa.feature.delta(mfcc)
    delta2 = librosa.feature.delta(mfcc, order=2)
    return np.vstack([mfcc, delta, delta2]).T

3.2 注意力机制实现

传统LSTM平等对待所有时间步的特征，而我们实现的注意力层可以让模型聚焦于关键语音片段：

python复制class AttentionLayer(Layer):
    def __init__(self, **kwargs):
        super(AttentionLayer, self).__init__(**kwargs)

    def build(self, input_shape):
        self.W = self.add_weight(name='att_weight', 
                                shape=(input_shape[-1], 1),
                                initializer='normal')
        super(AttentionLayer, self).build(input_shape)

    def call(self, x):
        e = K.tanh(K.dot(x, self.W))
        a = K.softmax(e, axis=1)
        output = x * a
        return K.sum(output, axis=1)