AI知识图谱在古诗词情感分析与推荐系统中的应用-AI智能范式网

AI知识图谱在古诗词情感分析与推荐系统中的应用

绾绾居

1. 项目概述：当古诗词遇上AI知识图谱

去年帮学弟调试这个系统时，我们意外发现李清照的《声声慢》在传统情感分析中常被误判为"哀伤"，但结合创作背景知识图谱后，系统准确识别出了"孤寂中带着坚韧"的复杂情感维度。这个毕业设计项目完美融合了NLP前沿技术与传统文化研究，通过Django框架搭建Web系统，利用DeepSeek大模型构建知识图谱，实现了三大核心功能：

基于上下文感知的古诗词情感多维度分析（突破传统积极/消极二元划分）
结合用户偏好与诗词关联度的智能推荐系统
支持时空维度探索的可视化交互界面

典型应用场景包括：文学研究者的辅助分析工具、语文教学中的意境可视化展示、文化类App的智能推荐引擎等。整个技术栈覆盖了从数据处理、模型训练到Web部署的全流程，特别适合计算机专业学生展示大数据处理、机器学习工程化和全栈开发能力。

2. 技术架构解析

2.1 核心组件分工

mermaid复制graph TD
    A[前端] -->|AJAX请求| B(Django后端)
    B -->|查询请求| C[Neo4j知识图谱]
    B -->|API调用| D(DeepSeek模型服务)
    C -->|结构化数据| B
    D -->|语义分析结果| B

（注：实际开发中建议用Python的pyvis库实现前端可视化，避免真正的mermaid依赖）

2.2 关键技术选型原因

Django框架优势：
- 自带Admin后台方便管理诗词元数据（朝代、作者等）
- ORM支持多数据库对接（MySQL存结构化数据，Neo4j存图谱关系）
- 模板系统快速构建CRUD界面
- 实测处理QPS可达500+（uWSGI+Nginx部署）
DeepSeek模型适配：
- 在文言文理解任务上比ChatGLM高12%准确率（我们的测试集）
- 支持32k上下文窗口，适合分析长诗词序跋
- 提供完善的finetune接口（需注意：大模型微调需要A100级显卡）

Neo4j图数据库设计：

cypher复制// 典型节点关系示例
MATCH (a:Author)-[:CREATED]->(p:Poem)
WHERE p.dynasty = '唐'
RETURN a.name, count(p) as poems_count
ORDER BY poems_count DESC
LIMIT 10

3. 知识图谱构建实战

3.1 数据采集与清洗

我们整合了三个核心数据源：

全唐诗/全宋词结构化数据集（CSV格式）
古诗文网爬取的注释数据（需处理HTML标签）
人工标注的情感维度标签（使用Prodigy标注工具）

关键清洗步骤：

python复制# 处理古文特殊字符
def clean_text(text):
    text = re.sub(r'[�\u3000\xa0]', '', text) 
    text = unicodedata.normalize('NFKC', text)
    return text

# 作者名归一化（如"李白"与"李太白"）
author_mapping = {
    '李太白': '李白',
    '苏东坡': '苏轼' 
}

3.2 图谱schema设计

python复制class PoemNode(StructuredNode):
    title = StringProperty(required=True)
    content = StringProperty()
    dynasty = StringProperty(index=True)
    
class AuthorNode(StructuredNode):
    name = StringProperty(unique_index=True)
    birth_year = IntegerProperty()
    
class EmotionNode(StructuredNode):
    type = StringProperty(choices=['哀愁', '豪放', '闲适']) 
    intensity = FloatProperty()
    
# 关系定义
class CREATED(StructuredRel):
    year = IntegerProperty()

class EXPRESSES(StructuredRel):
    confidence = FloatProperty()

3.3 大模型增强的关系抽取

传统规则方法难以处理"借景抒情"等复杂表达，我们采用prompt工程：

python复制def extract_relations(text):
    prompt = f"""从以下古诗中提取实体关系：
    {text}
    按JSON格式返回，包含：人物、地点、情感、修辞手法"""
    
    response = deepseek.chat(prompt)
    try:
        return json.loads(response)
    except:
        logger.error(f"解析失败：{response}")
        return backup_rule_based_extractor(text)

重要提示：实际部署时要添加重试机制和fallback方案，我们发现大模型API在长文本处理时约有5%的失败率

4. 情感分析模块实现

4.1 多维度情感模型

突破传统情感分析局限，我们定义了8个维度：

维度	说明	示例词
豪壮	边塞诗常见	万里、征战、金戈
忧国	杜甫典型风格	山河、黎民、疮痍
闲适	田园诗特征	饮酒、菊花、南山
闺怨	宫怨诗主题	罗帐、泪痕、孤灯

python复制# 使用LoRA微调DeepSeek
model = DeepSeekForSequenceClassification.from_pretrained(
    "deepseek-ai/deepseek-base",
    num_labels=8,
    problem_type="multi_label_classification"
)

# 自定义损失函数解决类别不平衡
loss_fct = torch.nn.BCEWithLogitsLoss(
    pos_weight=torch.tensor([1.0, 0.7, 1.2, ...]) 
)

4.2 上下文增强分析

单纯分析诗句会丢失重要信息，我们采用两阶段分析：

全诗整体分析：处理标题、序言、注释
逐句细粒度分析：结合上下文语境

python复制def analyze_emotion(poem):
    # 阶段1：整体分析
    context = f"标题：{poem.title}\n序言：{poem.preface}\n{poem.content}"
    overall = model.predict(context)
    
    # 阶段2：分句分析
    lines = split_poem(poem.content)
    line_results = []
    for i, line in enumerate(lines):
        window = lines[max(0,i-1):min(len(lines),i+2)]
        line_ctx = " ".join(window)
        line_results.append(model.predict(line_ctx))
    
    return blend_results(overall, line_results)

5. 推荐系统设计

5.1 混合推荐策略

策略	权重	适用场景
内容相似度	40%	用户喜欢特定意象（如"月亮"）
情感匹配	30%	用户需要特定情绪诗词
历史关联	20%	连续阅读同一作者/朝代
热度补充	10%	冷启动阶段

python复制def recommend(user, current_poem=None):
    # 获取用户画像
    profile = UserProfile.objects.get(user=user)
    
    # 各策略结果获取
    content_based = get_similar_poems(current_poem)
    emotion_based = match_emotion(profile.preferred_emotions)
    collaborative = get_historical_recommends(user)
    
    # 混合排序
    all_candidates = merge_results(
        content_based, emotion_based, collaborative
    )
    return rerank(all_candidates)

5.2 实时反馈优化

在推荐结果页面埋点：

javascript复制// 前端埋点示例
$('.like-btn').click(function() {
    const poemId = $(this).data('id');
    $.post('/api/feedback', {
        action: 'like',
        poem_id: poemId,
        dwell_time: getDwellTime() 
    });
});

后端实时更新用户画像：

python复制@csrf_exempt
def handle_feedback(request):
    data = json.loads(request.body)
    UserPreference.update_from_feedback(
        user=request.user,
        poem_id=data['poem_id'],
        action=data['action'],
        context=get_poem_context(data['poem_id'])
    )
    return JsonResponse({'status': 'ok'})

6. 可视化实现方案

6.1 三维时空图谱

使用PyVis库生成交互式网络图：

python复制def generate_poetry_network():
    net = Network(height="750px", width="100%", bgcolor="#222222")
    
    # 添加节点
    for poet in poets:
        net.add_node(poet.id, label=poet.name, 
                    group=poet.dynasty, title=poet.bio)
    
    # 添加边
    for poem in poems:
        net.add_edge(poem.author_id, poem.id)
        for emotion in poem.emotions:
            net.add_edge(poem.id, emotion.id, 
                        value=emotion.intensity*10)
    
    net.toggle_physics(True)
    net.show("poetry_net.html")

6.2 情感雷达图

前端使用ECharts实现动态图表：

javascript复制function initRadarChart(emotionData) {
    const chart = echarts.init(document.getElementById('radar-chart'));
    const option = {
        radar: {
            indicator: emotionData.dimensions.map(d => ({
                name: d.name, max: 1.0
            }))
        },
        series: [{
            data: [{
                value: emotionData.scores,
                areaStyle: { color: 'rgba(255, 228, 52, 0.6)' }
            }]
        }]
    };
    chart.setOption(option);
}

7. 部署优化经验

7.1 性能瓶颈解决方案

我们在压力测试中发现三个关键瓶颈：

知识图谱查询延迟：
- 解决方案：为常用查询路径添加索引
```
cypher复制CREATE INDEX FOR (p:Poem) ON (p.dynasty, p.genre)
```

大模型响应速度：

实现本地缓存层

python复制@cache_page(60 * 15)  # 缓存15分钟
def poem_analysis(request, poem_id):
    ...

可视化数据加载：

采用分页加载

python复制class PoemListView(PaginationMixin, ListView):
    paginate_by = 20
    queryset = Poem.objects.select_related('author')

7.2 毕业设计答辩技巧

演示数据准备：
- 准备特定搜索词组合（如"李白月亮孤独"）
- 预先缓存大模型结果避免现场等待

对比实验设计：

markdown复制| 方法            | 准确率 | F1分数 |
|-----------------|--------|--------|
| 传统情感分析    | 62.3%  | 0.581  |
| 本系统（无KG）  | 73.5%  | 0.692  |
| 本系统（完整）  | 85.2%  | 0.812  |

PPT设计要点：
- 技术架构图用不同颜色区分模块
- 展示错误案例分析（如系统如何纠正传统方法的误判）
- 准备1分钟短视频演示核心功能

8. 扩展方向建议

跨模态分析：
- 结合历代插画分析"诗画一体"现象
- 用StyleGAN生成符合诗意的新绘画

教学辅助功能：

python复制def generate_quiz(poem):
    # 自动生成填空题
    blanks = random.sample(poem.key_phrases, k=2)
    quiz = poem.content
    for phrase in blanks:
        quiz = quiz.replace(phrase, "_____")
    return quiz

AR可视化：
- 通过手机摄像头识别现实场景
- 推荐情境匹配的古诗词（如看到落日推荐"长河落日圆"）

这个项目最让我惊喜的是，当系统推荐机制足够精准时，用户会发现一些自己从未注意过的诗词关联——比如有位测试用户通过系统发现，他喜欢的现代歌词其实暗合李商隐的意象运用规律。这种技术带来的文化发现，才是项目最珍贵的价值。