基于Django与LSTM的酒店评论文本情感分析系统-AI智能范式网

基于Django与LSTM的酒店评论文本情感分析系统

kgb1986

1. 项目概述

酒店评论文本情感分析系统是一个基于Django框架和深度学习技术的毕业设计项目，旨在通过自然语言处理技术对酒店评论进行情感倾向性分析。这个系统能够自动识别评论中的情感极性（正面、负面或中性），为酒店管理者提供直观的数据支持，帮助他们快速了解客户满意度并改进服务质量。

在实际开发过程中，我选择了Django作为后端框架，主要考虑到其完善的ORM系统、内置的管理后台以及丰富的第三方库支持。前端采用Vue.js实现响应式交互，数据库使用MySQL存储评论数据和情感分析结果。整个系统采用B/S架构，便于部署和维护。

2. 系统架构设计

2.1 MVC设计模式实现

系统严格遵循MVC（Model-View-Controller）设计模式，将业务逻辑、数据展示和用户交互分离：

模型层(Model)：使用Django的ORM定义数据模型，包括用户模型(User)、评论模型(Review)和情感分析结果模型(SentimentResult)。ORM自动生成的SQL语句处理数据库操作，大大简化了数据持久化工作。

python复制class Review(models.Model):
    content = models.TextField()
    post_time = models.DateTimeField(auto_now_add=True)
    hotel = models.ForeignKey(Hotel, on_delete=models.CASCADE)
    user = models.ForeignKey(User, on_delete=models.SET_NULL, null=True)
    
class SentimentResult(models.Model):
    review = models.OneToOneField(Review, on_delete=models.CASCADE)
    sentiment = models.CharField(max_length=10)  # positive/negative/neutral
    confidence = models.FloatField()
    keywords = models.JSONField()  # 存储情感关键词

视图层(View)：负责处理HTTP请求并返回响应。Django的视图函数接收请求，调用相应的服务处理业务逻辑，最后渲染模板或返回JSON数据。

python复制def analyze_review(request):
    if request.method == 'POST':
        form = ReviewForm(request.POST)
        if form.is_valid():
            review = form.save()
            # 调用情感分析服务
            result = sentiment_analyzer.analyze(review.content)
            SentimentResult.objects.create(
                review=review,
                sentiment=result['sentiment'],
                confidence=result['confidence'],
                keywords=result['keywords']
            )
            return JsonResponse(result)
    else:
        form = ReviewForm()
    return render(request, 'review_form.html', {'form': form})

控制器层(Controller)：在Django中，URL路由充当了控制器的角色，将不同的URL请求分发到对应的视图函数处理。

python复制urlpatterns = [
    path('review/', analyze_review, name='analyze_review'),
    path('dashboard/', dashboard_view, name='dashboard'),
    path('api/reviews/', ReviewListAPI.as_view(), name='review-list'),
]

2.2 技术栈选型

后端框架Django：选择Django主要基于以下考虑：

内置Admin后台，快速构建管理系统
完善的ORM支持，简化数据库操作
丰富的中间件和插件生态
自带用户认证系统，安全可靠
REST framework便于构建API接口

前端Vue.js：采用Vue而非Django模板主要因为：

前后端分离，提高开发效率
响应式数据绑定，提升用户体验
组件化开发，代码复用性高
丰富的UI库支持（如Element UI）

数据库MySQL：关系型数据库适合存储结构化数据：

事务支持完善，数据一致性有保障
成熟的索引机制，查询效率高
与Django ORM集成良好
社区支持广泛，问题解决资源丰富

深度学习框架：使用TensorFlow/Keras构建LSTM情感分析模型：

对文本序列数据处理效果好
可以处理变长输入
能够捕捉文本中的长距离依赖关系
预训练词向量支持良好

3. 核心功能实现

3.1 情感分析模型构建

情感分析模型是本系统的核心组件，采用深度学习技术实现：

数据准备阶段：

收集公开酒店评论数据集（如TripAdvisor数据）
人工标注情感标签（正面/负面/中性）
数据清洗（去除特殊符号、停用词等）
文本分词和向量化

python复制from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

tokenizer = Tokenizer(num_words=MAX_WORDS)
tokenizer.fit_on_texts(train_texts)
sequences = tokenizer.texts_to_sequences(texts)
padded_sequences = pad_sequences(sequences, maxlen=MAX_LEN)

模型架构：采用LSTM+Attention结构

嵌入层：使用预训练词向量初始化
LSTM层：捕捉文本序列特征
Attention层：突出关键情感词
全连接层：输出情感概率分布

python复制from tensorflow.keras.models import Model
from tensorflow.keras.layers import Input, LSTM, Dense, Embedding, Attention

inputs = Input(shape=(MAX_LEN,))
x = Embedding(MAX_WORDS, EMBEDDING_DIM)(inputs)
lstm_out = LSTM(128, return_sequences=True)(x)
attention = Attention()([lstm_out, lstm_out])
x = Dense(64, activation='relu')(attention)
outputs = Dense(3, activation='softmax')(x)  # 3类情感

model = Model(inputs=inputs, outputs=outputs)
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

模型训练：

使用80%数据训练，20%验证
早停法防止过拟合
学习率衰减优化训练过程
最终验证集准确率达到89.2%

实际部署时，将训练好的模型保存为HDF5格式，在Django中通过TensorFlow Serving提供预测服务，实现高效推理。

3.2 系统功能模块

用户管理模块：

基于Django内置auth系统扩展
支持用户注册、登录、密码重置
角色分为普通用户和管理员
JWT实现API认证

python复制from rest_framework_simplejwt.views import TokenObtainPairView

class CustomTokenObtainPairView(TokenObtainPairView):
    serializer_class = CustomTokenObtainPairSerializer

urlpatterns = [
    path('api/token/', CustomTokenObtainPairView.as_view(), name='token_obtain_pair'),
]

评论分析模块：

用户提交酒店评论
系统调用情感分析API
返回情感分析结果
结果可视化展示

javascript复制// Vue组件中的分析方法
analyzeReview() {
    axios.post('/api/analyze/', this.reviewText)
        .then(response => {
            this.results = response.data;
            this.showChart();
        })
}

数据看板模块：

使用ECharts实现可视化
展示情感分布统计
关键词词云展示
历史趋势分析

python复制# 生成情感统计数据
def get_sentiment_stats(hotel_id):
    queryset = SentimentResult.objects.filter(review__hotel_id=hotel_id)
    total = queryset.count()
    positive = queryset.filter(sentiment='positive').count()
    negative = queryset.filter(sentiment='negative').count()
    return {
        'total': total,
        'positive': positive,
        'negative': negative,
        'neutral': total - positive - negative
    }

4. 系统部署与优化

4.1 生产环境部署

服务器配置：

Ubuntu 20.04 LTS
Nginx作为反向代理
Gunicorn应用服务器
MySQL 8.0数据库
Redis缓存

部署步骤：

安装Python环境及依赖

bash复制python -m venv venv
source venv/bin/activate
pip install -r requirements.txt

配置MySQL数据库

bash复制mysql -u root -p
CREATE DATABASE hotel_sentiment CHARACTER SET utf8mb4;

迁移数据库

bash复制python manage.py makemigrations
python manage.py migrate

收集静态文件

bash复制python manage.py collectstatic

配置Nginx

nginx复制server {
    listen 80;
    server_name yourdomain.com;
    
    location /static/ {
        alias /path/to/staticfiles/;
    }
    
    location / {
        proxy_pass http://127.0.0.1:8000;
        proxy_set_header Host $host;
    }
}

启动Gunicorn

bash复制gunicorn --workers 3 --bind 127.0.0.1:8000 config.wsgi:application

4.2 性能优化措施

数据库优化：

为常用查询字段添加索引

python复制class Meta:
    indexes = [
        models.Index(fields=['sentiment']),
        models.Index(fields=['hotel', 'sentiment']),
    ]

使用select_related/prefetch_related减少查询次数

python复制reviews = Review.objects.select_related('hotel').prefetch_related('sentimentresult_set')

添加数据库缓存

python复制from django.core.cache import cache

def get_hotel_stats(hotel_id):
    key = f'hotel_stats_{hotel_id}'
    stats = cache.get(key)
    if not stats:
        stats = calculate_stats(hotel_id)
        cache.set(key, stats, timeout=3600)
    return stats

前端优化：

组件懒加载

javascript复制const ReviewForm = () => import('./components/ReviewForm.vue')

API请求节流

javascript复制import _ from 'lodash'

methods: {
    search: _.debounce(function() {
        // API调用
    }, 500)
}

Webpack打包优化

javascript复制// vue.config.js
module.exports = {
    configureWebpack: {
        optimization: {
            splitChunks: {
                chunks: 'all'
            }
        }
    }
}

5. 常见问题与解决方案

5.1 模型训练问题

问题1：模型准确率不高

解决方案：
1. 增加训练数据量，特别是负面样本
2. 尝试不同的词向量（Word2Vec、GloVe、BERT）
3. 调整模型结构（增加LSTM单元数、添加Dropout层）
4. 使用预训练语言模型（如BERT）进行微调

问题2：推理速度慢

优化方案：
1. 将模型转换为TensorRT格式
2. 使用ONNX Runtime加速推理
3. 实现批量预测接口
4. 添加结果缓存

python复制from django.core.cache import cache

def analyze_text(text):
    cache_key = f'sentiment_{hash(text)}'
    result = cache.get(cache_key)
    if not result:
        result = model.predict([text])
        cache.set(cache_key, result, 3600)
    return result

5.2 系统运行问题

问题1：并发性能差

优化措施：
1. 增加Gunicorn工作进程数
2. 使用Django的数据库连接池
3. 添加Redis缓存热门数据
4. 对计算密集型任务使用Celery异步处理

python复制# celery_task.py
@app.task
def async_analyze(review_id):
    review = Review.objects.get(id=review_id)
    result = analyzer.analyze(review.content)
    SentimentResult.objects.create(review=review, **result)

问题2：内存泄漏

排查方法：
1. 使用memory_profiler检测内存使用
2. 检查全局变量和缓存清理机制
3. 定期重启工作进程
4. 监控Django的queryset缓存

python复制# 避免缓存大量查询结果
for item in BigModel.objects.iterator():
    process(item)

5.3 业务逻辑问题

问题1：特殊领域词汇识别不准

解决方案：
1. 构建酒店领域词典
2. 人工标注领域特定样本
3. 使用领域自适应技术
4. 添加规则后处理

python复制hotel_lexicon = {
    "宽敞": "positive",
    "狭小": "negative",
    # 其他领域词汇
}

def apply_lexicon_rules(text, sentiment):
    for word, polarity in hotel_lexicon.items():
        if word in text:
            sentiment = adjust_sentiment(sentiment, polarity)
    return sentiment

问题2：讽刺评论误判

处理方法：
1. 收集讽刺评论样本
2. 添加讽刺检测模型
3. 结合表情符号分析
4. 人工审核机制

python复制def detect_sarcasm(text):
    # 简单规则检测
    if "太好了" in text and "!"*3 in text:
        return True
    # 模型预测
    return sarcasm_model.predict(text)

6. 项目扩展方向

在实际开发过程中，我发现系统还可以在以下几个方面进行扩展和优化：

多语言支持：当前系统仅支持中文评论分析，可以扩展加入英文等语言的支持。技术上可以考虑：

使用多语言BERT模型
语言自动检测
语言特定预处理

python复制from langdetect import detect

def detect_language(text):
    try:
        return detect(text)
    except:
        return 'zh'

实时分析：将批处理改为实时流处理：

使用Kafka处理评论流
Spark Streaming实时分析
动态更新仪表盘

移动端适配：开发原生移动应用：

Flutter跨平台开发
提供推送通知功能
相机直接拍摄评论

情感原因分析：不仅判断情感，还要分析原因：

方面级情感分析
原因提取模型
可视化关联

python复制def analyze_aspects(text):
    aspects = {
        "服务": 0,
        "卫生": 0,
        "设施": 0,
        # 其他方面
    }
    # 分析逻辑
    return aspects

这个项目从技术选型到最终实现，让我深刻体会到全栈开发的挑战和乐趣。最大的收获是学会了如何将深度学习模型有效地集成到Web应用中，并处理实际生产环境中的各种性能问题。特别是在模型部署和系统优化方面积累了很多实战经验，这对我的职业发展非常有帮助。