AI与古诗词融合：知识图谱与情感分析实战

sched yield

1. 项目概述：当古诗词遇上AI技术栈

这个毕业设计项目堪称传统文化与前沿技术的完美碰撞——用Python知识图谱构建中华古诗词数据库，结合情感分析算法和智能问答系统，最后用AI大模型实现自动写诗。整套系统涉及自然语言处理（NLP）、图数据库、机器学习、深度学习等多个技术领域，是典型的全栈式AI应用开发。

我在实际开发中发现，这类项目最考验的不是单一技术点的深度，而是如何让不同模块有机协同。比如知识图谱的实体关系设计会直接影响问答系统的准确率，而情感分析的质量又决定了自动写诗的意境把控。下面我就拆解各模块的技术实现方案，分享几个关键环节的实战经验。

2. 核心模块技术解析

2.1 知识图谱构建方案选型

古诗词知识图谱需要包含以下核心实体：

诗人（朝代、字号、生平）
诗词作品（标题、正文、创作年代）
文学意象（杨柳、明月等）
地理信息（长安、洛阳等）

经过对比测试，我们最终采用Neo4j图数据库+Py2neo驱动的方案，相比传统关系型数据库有三大优势：

关系查询性能提升5-8倍（实测《全唐诗》9万首诗词的关联查询仅需0.3秒）
支持多跳关系查询（如"找出所有描写过岳阳楼的宋代诗人")
可视化展示更直观

实体关系建模示例：

python复制# 节点定义
class Poet(StructuredNode):
    name = StringProperty(unique_index=True)
    dynasty = StringProperty()
    
class Poem(StructuredNode):
    title = StringProperty(unique_index=True)
    content = StringProperty()
    
# 关系定义
class WROTE(StructuredRel):
    year = IntegerProperty()

2.2 情感分析技术路线

古诗词情感分析面临两个特殊挑战：

古今语义差异（如"凄凉"在古代可能是中性描写）
意象的象征意义（"柳"常代表离别）

我们采用混合模型方案：

基于SnowNLP的基础情感分析
自定义意象情感词典（人工标注300+高频意象）
LSTM注意力机制模型（识别上下文情感倾向）

关键实现代码：

python复制# 意象情感词典示例
image_emotion = {
    "柳": ["离别", 0.2],
    "月": ["思乡", 0.7],
    "剑": ["壮志", 0.9]
}

# 混合情感计算
def calculate_emotion(text):
    base_score = SnowNLP(text).sentiments
    image_score = sum([v[1] for k,v in image_emotion.items() if k in text])/len(text)
    return 0.6*base_score + 0.4*image_score

3. 智能问答系统实现

3.1 问答引擎架构设计

系统采用双层问答机制：

基于知识图谱的结构化问答（处理"李白写过哪些边塞诗"类问题）
基于BERT的语义问答（处理"表现孤独寂寞的诗句"类问题）

技术栈组合：

意图识别：BERT+BiLSTM分类模型
实体识别：LAC分词工具
查询生成：Cypher模板引擎

关键提示：古诗词问答需要特别处理同义词映射，如"李太白->李白"，"汴州->开封"

3.2 性能优化实践

通过以下措施将平均响应时间控制在800ms内：

预加载高频查询缓存（LRU缓存策略）
对长诗进行分块索引
使用Faiss加速向量相似度计算

优化前后的性能对比：

查询类型	优化前(ms)	优化后(ms)
诗人作品查询	1200	450
意象关联查询	1800	600
语义相似查询	2500	750

4. AI写诗模块开发

4.1 模型选型对比

测试了三种生成模型：

GPT-2基础版：生成流畅但缺乏古风韵味
Seq2Seq+Attention：韵律规整但内容空洞
自研混合模型（GPT-2骨架+韵律约束）：

最终选择方案3，通过以下措施提升质量：

在loss函数中加入平仄惩罚项
使用意象情感词典引导内容生成
后处理阶段进行格律校正

4.2 生成效果控制

开发中遇到的典型问题及解决方案：

问题1：生成现代语汇

方案：在tokenizer阶段过滤现代词汇
添加古典词频统计约束

问题2：意象组合不合理

方案：构建意象共现矩阵（从5万首古诗统计得出）
生成时采用意象聚类采样

问题3：情感不一致

方案：在decoder阶段注入情感向量
使用情感分类器进行后过滤

5. 可视化展示方案

5.1 知识图谱可视化

使用Echarts实现三种视图：

诗人关系图（力导向布局）
意象共现热力图
时空分布地图（诗人籍贯+创作地）

5.2 情感趋势可视化

开发中发现直接展示数值效果不佳，最终采用：

情感雷达图（五维指标：喜、怒、哀、乐、思）
朝代情感折线图
诗人风格散点图

javascript复制// Echarts配置示例
option = {
    series: [{
        type: 'graph',
        layout: 'force',
        force: {
            repulsion: 100,
            edgeLength: 150
        },
        data: [{
            name: '李白',
            category: '盛唐'
        }]
    }]
}