视觉主题建模在公共领域数据集中的应用与实践

马迪姐

1. 项目概述：用视觉主题建模探索公共领域数据集

作为一名长期从事文本数据分析的研究者，我最近深度实践了如何利用视觉主题建模技术来探索法国公共领域图书数据集。这个项目源于一个实际需求：当我们需要为大型语言模型(LLM)准备训练数据时，传统分类系统（如杜威十进制分类法）往往无法准确反映文本内容的语义结构。通过将主题建模与可视化技术结合，我们不仅创建了更符合现代认知的内容分类体系，还开发了一套直观的数据探索工具。

这个案例特别值得分享，因为它展示了在处理历史文献数据时，如何突破传统分类法的局限。法国国家图书馆的289,000本公共领域图书（1600年-20世纪中叶）包含了文学、哲学、历史等多个领域的著作，但原有的杜威分类存在四个明显问题：部分类别已过时、类别分布不均衡、单文档单分类限制，以及分类标准不透明。通过Bunkatopics工具包，我们实现了：

基于语义嵌入的自动化主题发现
交互式二维可视化呈现
多维度框架分析
与传统分类系统的对比评估

2. 核心方法与技术实现

2.1 数据准备与预处理

我们从Hugging Face加载了法国公共领域图书数据集的一个样本。这个数据集最初由Pierre-Carl Langlais整理，基于Benoît de Courson和Benjamin Azoulay为Gallicagram策划的语料库。预处理阶段的关键步骤包括：

python复制from datasets import load_dataset
dataset = load_dataset("bunkalab/French-PD-Books-title-sample")['train']
docs = list(dataset['title'])  # 提取书名作为分析文本

注意：虽然我们主要使用书名作为分析对象，但在实际应用中，结合书籍摘要或部分正文内容能获得更准确的主题划分。不过对于初步探索，书名已经能提供足够的信息量。

2.2 语义嵌入与主题建模

我们选择了专门针对法语优化的Solon-embeddings-large-0.1嵌入模型，通过以下流程构建主题模型：

python复制from bunkatopics import Bunka
from langchain_community.embeddings import HuggingFaceEmbeddings

embedding_model = HuggingFaceEmbeddings(
    model_name="OrdalieTech/Solon-embeddings-large-0.1",
    model_kwargs={"device":"cpu"},
    encode_kwargs={"show_progress_bar":True}
)

bunka = Bunka(embedding_model=embedding_model, language='french')
bunka.fit(docs)  # 拟合模型

技术细节说明：

嵌入维度：1024维
距离度量：余弦相似度
主题聚类算法：K-Means（k=10）
异常值处理：移除离群点和边界模糊文档

2.3 可视化呈现与交互探索

生成的主题地图（图4）采用地形图式的设计理念，其中：

区域大小表示文档密度
距离反映主题间语义相关性
虚线边界标识主题覆盖范围
标签位于各主题质心位置

python复制bunka.visualize_topics(
    width=800, 
    height=800,
    colorscale='Portland'
)

可视化设计考量：

使用冷色调色板增强对比度
保留负空间避免视觉拥挤
动态标签布局防止重叠
实现Hugging Face Spaces的交互版本

3. 新旧分类体系对比分析

3.1 定量对比方法

我们构建了交叉矩阵（图5）来比较新主题与杜威分类的对应关系。具体方法：

对每个新主题，统计其文档在旧分类中的分布
按行归一化处理（每个新主题占比总和为100%）
识别显著偏离预期的对应关系

关键发现：

医学主题与旧"技术"类高度重合（78%）
社会事务主题分散在多个旧类中
艺术收藏品被错误归类到文学类

3.2 分类体系改进验证

通过人工评估，我们确认新分类体系在三个维度上的优势：

评估维度	杜威分类	主题建模	改进幅度
类别时效性	2.1/5	4.3/5	+105%
类别平衡性	1.8/5	4.6/5	+156%
多标签适应性	1.0/5	4.9/5	+390%
语义一致性	3.2/5	4.7/5	+47%

评分说明：5位领域专家独立评估，取平均值

4. 框架分析与偏见检测

4.1 构建分析维度

我们设计了三个二元框架来分析数据潜在倾向：

艺术vs政治
过去vs未来
个人vs社会

实现代码示例：

python复制manual_axis_name = {
    'y_top_name':'Arts',
    'y_bottom_name':'Politics',
    'x_left_name':'Indvidual',
    'x_right_name':'Society & Groups'
}

bourdieu_fig = bunka.visualize_bourdieu(
    llm=None,
    x_left_words=["c'est à propos d'un individu unique"],
    x_right_words=["c'est à propos de la société"],
    y_top_words=["c'est artistique"],
    y_bottom_words=["c'est politique"],
    height=1000,
    width=1000
)