零样本学习与少样本学习：AI小样本识别技术解析

老铁爱金衫

1. 概念解析：从人类认知到机器学习的映射

零样本学习（Zero-Shot Learning, ZSL）和少样本学习（Few-Shot Learning, FSL）都是让AI系统在缺乏充足训练样本的情况下进行有效识别的技术路线。这就像人类看到一种从未见过的动物时，能够根据已有的生物分类知识推测它的特性；或者仅观察几个病例样本就能诊断类似症状的新患者。

1.1 零样本学习的核心机制

ZSL的核心在于属性迁移。假设我们已经训练了一个能识别"斑马"、"熊猫"等动物的模型，现在需要它识别一种训练时从未见过的"犀牛"。传统深度学习会完全失效，但ZSL通过以下流程实现：

构建属性空间：为每个类别定义语义属性向量（如"有条纹=1，有角=0，栖息地=草原"）
建立视觉-语义映射：训练时学习图像特征到属性空间的投影函数
推理时匹配：将新样本的特征投影到属性空间，与未知类的属性描述进行相似度计算

关键突破点是使用了辅助信息（attribute/text description）作为桥梁。例如CLIP模型通过对比学习对齐图像和文本嵌入空间，使得输入"一只长鼻子的灰色大型动物"时，即使没有犀牛的训练图片，也能通过文本描述匹配到正确类别。

1.2 少样本学习的实现路径

FSL通常采用N-way K-shot设定（如5类每类3个样本），其技术路线主要有：

度量学习（Metric Learning）：学习一个特征空间，使得同类样本距离近、异类远。典型如Prototypical Networks计算每个类的原型中心（prototype），新样本通过最近邻分类
数据增强：通过图像变换、特征混合等技术从少量样本生成更多训练数据
元学习（Meta-Learning）：在多个小样本任务上训练模型快速适应能力，如MAML通过二级优化调整模型初始参数

以医疗影像诊断为例，当只有5个肺炎阳性病例时，医生可以通过对比健康肺部的结构差异做出判断——这正是FSL模仿的人类认知过程。

2. 技术架构对比：从数据流看本质差异

2.1 零样本学习的典型pipeline

python复制# 伪代码示例：基于属性迁移的ZSL流程
class Attributes:
    zebra = {"stripes":1, "horns":0, "habitat":"savanna"}
    panda = {"stripes":0, "horns":0, "habitat":"forest"}
    
def train_zsl_model():
    # 训练阶段：学习视觉特征到属性空间的映射
    model = train(image_features, Attributes)
    
def predict(image):
    # 预测阶段：比较未知类属性描述
    projected_attr = model(image)
    return argmin(distance(projected_attr, Attributes.unknown_class))

关键组件：

语义嵌入层（如Word2Vec/GloVe）
视觉-语义对齐模块（如线性投影/神经网络）
兼容性函数计算（如余弦相似度）

2.2 少样本学习的实现框架

python复制# 伪代码示例：基于原型网络的FSL
class PrototypicalNetwork:
    def __init__(self, backbone):
        self.encoder = backbone  # 如ResNet特征提取器
        
    def compute_prototypes(self, support_set):
        # 计算每个类的原型中心
        return [mean(self.encoder(x)) for x in support_set]
        
    def predict(self, query, prototypes):
        # 基于距离的分类
        distances = [euclidean(self.encoder(query), p) for p in prototypes]
        return argmin(distances)

典型变体包括：

Relation Networks：用神经网络代替固定距离度量
Matching Networks：基于注意力机制的样本匹配
Graph Neural Networks：构建样本关系图进行消息传递

关键区别：ZSL完全依赖辅助信息建立跨模态关联，而FSL仍需要少量样本进行特征校准或模型适配。

3. 数学本质：不同假设空间下的泛化

3.1 零样本学习的概率视角

ZSL可形式化为条件概率估计：
$$p(y|x,a) = \frac{p(x|a_y)p(a_y)}{p(x)}$$
其中$a_y$是类别$y$的属性描述。模型需要学习：

视觉-属性似然$p(x|a_y)$
属性先验$p(a_y)$

挑战在于避免"领域偏移"（Domain Shift）——训练类和测试类的属性分布不一致。例如训练数据都是四足动物，测试时出现鸟类会导致属性组合超出模型经验。

3.2 少样本学习的泛化边界

FSL的样本复杂度可用理论泛化界分析。对于$m$个$d$维样本的$k$-shot任务，期望误差满足：
$$\epsilon \leq \mathcal{O}\left(\sqrt{\frac{d}{k}}\right) + \mathcal{O}\left(\sqrt{\frac{d}{m}}\right)$$

这意味着：

特征维度$d$需要压缩（通过预训练/降维）
增加way数$m$比增加shot数$k$对误差影响更大
解释了为何transformer在FSL表现优异：self-attention能有效降低有效维度$d$

4. 实战对比：CV和NLP中的典型应用

4.1 计算机视觉案例

ZSL应用：

野生动物监测：识别稀有物种（如新发现的昆虫）
零售商品识别：新品上架无需重新训练

实施方案：

python复制# 使用CLIP实现零样本分类
import clip
model, preprocess = clip.load("ViT-B/32")
image = preprocess(Image.open("rhino.jpg")).unsqueeze(0)
text = clip.tokenize(["zebra", "panda", "rhino"])
logits_per_image, _ = model(image, text)
probs = logits_per_image.softmax(dim=1)

FSL应用：

医学影像：罕见病诊断（如只有5个阳性病例）
工业质检：新产品缺陷检测

代码示例：

python复制# 使用Torchmeta实现5-way 1-shot
from torchmeta.datasets import Omniglot
dataset = Omniglot("data", ways=5, shots=1, download=True)

4.2 自然语言处理场景

ZSL突破：

未知意图识别：用户说"我想把星星放进收藏夹" → 识别为"添加书签"
实现方式：将意图描述（如"收藏网页地址"）与查询语句在共享嵌入空间对齐

FSL典型方案：

小样本文本分类：使用Prompt-tuning

python复制# Pattern-Exploiting Training (PET)
prompt = "这句话谈论的是{}。选项：体育、科技、政治"
verbalizer = {"体育": "运动", "科技": "技术", "政治": "政府"}

5. 前沿挑战与应对策略

5.1 零样本学习的核心难题

语义间隙（Semantic Gap）：人工定义的属性与视觉特征不对齐
- 解决方案：自动属性学习（如通过LLM生成描述）
领域偏移问题：测试类分布超出训练范围
- 最新方法：生成对抗网络合成视觉特征（如f-VAEGAN）

5.2 少样本学习的改进方向

任务偏差：episodic训练与真实测试分布不一致
- 突破：自监督预训练 + 小样本微调（如SimCLR+ProtoNet）
负迁移：基础类别知识妨碍新类学习
- 方案：可塑性保护算法（如ANML）

实验发现：在MiniImageNet 5-way 1-shot任务中，当前SOTA方法（如Meta-Baseline）准确率约65%，而人类同等条件下可达85%——说明仍有提升空间。

6. 工具链与实操建议

6.1 零样本学习工具包

bash复制# 推荐库
pip install transformers  # HuggingFace CLIP
pip install gensim       # 词向量工具

图像编码：建议使用预训练ViT（如OpenAI的CLIP）
文本编码：Sentence-BERT或SimCSE更优

6.2 少样本学习开发栈

python复制# 元学习框架选择
import torchmeta       # 灵活但需自己实现逻辑
import learn2learn     # 内置多种算法
import higher          # 支持动态计算图

调试技巧：

特征归一化比想象中重要（L2 norm到单位球）
在基础类别上预训练backbone能提升20%+准确率
使用Label Smoothing缓解过拟合（ε=0.1效果最佳）

7. 选择指南：何时用哪种方法？

决策树：

code复制是否需要识别全新类别？
├─ 是 → 检查是否有语义描述/属性
│   ├─ 有 → 选择ZSL（需构建属性体系）
│   └─ 无 → 需人工标注少量样本转FSL
└─ 否 → 评估可用样本量
    ├─ <5样本/类 → FSL度量学习方案
    └─ >20样本/类 → 传统监督学习更优

在商品推荐系统中，处理长尾商品适合ZSL（用商品描述作为桥梁）；而用户冷启动问题更适合FSL（用少量行为数据快速建模）。