基于TF-IDF与逻辑回归的文本情感分类实战

马迪姐

1. 项目概述

在自然语言处理（NLP）领域，文本分类是最基础也最实用的任务之一。今天我要分享的是一个基于传统机器学习方法的文本情感分类实战项目，使用TF-IDF特征和逻辑回归模型在IMDb影评数据集上构建分类器。这个方案虽然不涉及深度学习，但在实际业务中仍然具有重要价值——它训练速度快、可解释性强，而且往往能提供不错的baseline性能。

这个项目的数据集来自Hugging Face的stanfordnlp/imdb，包含50,000条电影评论（25,000训练/25,000测试），任务是判断每条评论的情感倾向（正面/负面）。我们将使用词和双词组合（1-2gram）的TF-IDF作为特征，配合逻辑回归分类器，最终在测试集上达到了约87.5%的准确率和94.8%的AUC值。

2. 核心组件解析

2.1 TF-IDF特征工程

TF-IDF（Term Frequency-Inverse Document Frequency）是文本处理中最经典的特征表示方法之一。它的核心思想是：一个词在当前文档中出现次数越多（TF越高），同时在所有文档中出现次数越少（IDF越高），这个词的区分能力就越强。

数学表达式为：

code复制TF-IDF(t,d) = TF(t,d) × IDF(t)

其中：

TF(t,d)是词t在文档d中的出现频率
IDF(t) = log(N/(df(t)+1))，N是总文档数，df(t)是包含词t的文档数

在我们的实现中，特别关注了几个关键参数：

ngram_range=(1,2)：同时考虑单个词和双词组合
min_df=2：过滤掉只在单个文档中出现的罕见词
max_df=0.95：过滤掉出现在95%以上文档中的常见词
stop_words="english"：移除英语停用词

这些参数的选择不是随意的：

ngram_range扩展了特征的上下文感知能力
min_df/max_df有效降低了特征空间的噪声和维度
停用词移除减少了无意义特征的干扰

2.2 逻辑回归模型

逻辑回归虽然名字中有"回归"，但它实际上是一种经典的线性分类模型。它的工作原理可以分为三步：

线性变换：z = wᵀx + b
- w是特征权重向量
- b是偏置项
- x是输入特征（这里是TF-IDF向量）
概率映射：σ(z) = 1/(1+e⁻ᶻ)
- 通过sigmoid函数将线性输出压缩到(0,1)区间
- 可以解释为样本属于正类的概率
决策阈值（默认0.5）：
- p ≥ 0.5 → 预测为正类
- p < 0.5 → 预测为负类

在文本分类任务中，逻辑回归有几个显著优势：

对高维稀疏特征（如TF-IDF）非常鲁棒
训练效率高，优化问题是凸的
模型权重可解释，可以直接看到哪些词对分类影响大

我们使用的关键参数：

C=1.0：正则化强度的倒数，控制模型复杂度
max_iter=2000：最大迭代次数，确保收敛
solver="liblinear"：适合小规模数据的优化算法

3. 完整实现流程

3.1 数据准备与探索

首先加载IMDb数据集并进行初步分析：

python复制from datasets import load_dataset
import pandas as pd

ds = load_dataset("stanfordnlp/imdb")
train_df = pd.DataFrame({"text": ds["train"]["text"], "label": ds["train"]["label"]})
test_df = pd.DataFrame({"text": ds["test"]["text"], "label": ds["test"]["label"]})

print(train_df["label"].value_counts())

输出显示标签分布均衡（约50%正/负），这是评估指标选择的重要依据。

3.2 数据划分

从训练集中划分20%作为验证集：

python复制from sklearn.model_selection import train_test_split

X_train, X_valid, y_train, y_valid = train_test_split(
    train_df["text"],
    train_df["label"],
    test_size=0.2,
    random_state=42,
    stratify=train_df["label"]
)

注意使用了分层抽样（stratify）保持正负样本比例。

3.3 特征提取

使用TF-IDF向量化文本：

python复制from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(
    lowercase=True,
    stop_words="english",
    ngram_range=(1, 2),
    min_df=2,
    max_df=0.95
)

X_train_tfidf = vectorizer.fit_transform(X_train)
X_valid_tfidf = vectorizer.transform(X_valid)
X_test_tfidf = vectorizer.transform(test_df["text"])

这里的关键点：

fit_transform只在训练集上使用
transform用于验证集和测试集，避免数据泄露

3.4 模型训练

训练逻辑回归分类器：

python复制from sklearn.linear_model import LogisticRegression

clf = LogisticRegression(
    max_iter=2000,
    C=1.0,
    solver="liblinear"
)

clf.fit(X_train_tfidf, y_train)

3.5 评估与结果分析

我们实现了综合评估函数，计算多个指标：

python复制from sklearn.metrics import accuracy_score, precision_recall_fscore_support, roc_auc_score

def evaluate_binary(y_true, y_pred, y_proba):
    return {
        "accuracy": accuracy_score(y_true, y_pred),
        "precision": precision_recall_fscore_support(y_true, y_pred, average="binary")[0],
        "recall": precision_recall_fscore_support(y_true, y_pred, average="binary")[1],
        "f1": precision_recall_fscore_support(y_true, y_pred, average="binary")[2],
        "roc_auc": roc_auc_score(y_true, y_proba)
    }