欧盟AI训练数据透明度提案解析与实施挑战

洛裳

1. 欧盟AI训练数据透明度提案：一份足够详细的摘要框架解析

两周前，OpenFuture和Mozilla联合发布了一份针对欧盟《人工智能法案》要求的"足够详细的"通用人工智能(GPAI)训练数据集摘要模板提案。这份提案源于与多位贡献者（包括本文作者）的深入讨论，并附有一份由Zuzanna Warso主导、Maximilian Gahntz和Paul Keller共同参与撰写的优秀政策简报。这份名为《迈向稳健的训练数据透明度》的简报，在当前阶段堪称欧盟AI法案训练数据摘要领域最全面的提案之一。

这份提案之所以突出，在于它同时解决了两个关键问题：一是涵盖了利益相关方对GPAI系统可能提出的各类合理问题；二是在不同约束条件之间找到了必要的平衡点。虽然AI办公室仍需进一步讨论和工作以达成最终版本，但该初步提案考虑的广度使其成为一个强有力的起点——或者说，是支持持续对话的重要参考文件。

2. 提案的核心动机与法律依据

2.1 数据摘要的监管要求本质

欧盟数据摘要虽然与数据声明(datastatements)、数据表(datasheets)或数据营养标签(datanutritionlabels)等数据集文档格式有部分共同目标，但理解其要求的独特性对于管理大型复杂AI系统文档化过程中的各种利益权衡至关重要。

政策简报首先审视了这项数据摘要的监管授权：它必须"足够详细"以满足欧盟公民和组织在欧盟法律下维护其权利的合法利益需求，同时"适当考虑保护商业秘密的需要"。法案当前文本明确将版权列为这类合法利益之一，欧盟法律和宪章还支持隐私与数据保护权、科学权、非歧视和公平竞争等权利——正如简报所述，所有这些权利的保障都依赖于关于GPAI训练数据的信息。

2.2 信息披露的平衡艺术

这使欧盟数据摘要成为一种隐含的权衡行为。提供的训练数据信息必须在两个相互竞争的利益间找到平衡：一方面，信息要有足够的意义，使对GPAI开发过程和特性有各种合理疑问的利益相关方能够获得充分的调查起点；另一方面，又要对商业秘密给予"适当考虑"——但不是绝对服从。

模板还应避免要求过于复杂的流程，以免排除善意但资源较少的参与者，这些参与者的组织约束条件可能与大公司不同。为此，模板应针对所需信息类型设定直接且不言自明的最低要求。

3. 提案蓝图方法与亮点解析

3.1 结构化问题框架

OpenFuture和Mozilla提出的方案通过引入围绕特定问题构建的蓝图来解决这些矛盾。这些问题既来自从业者对模型训练中不同数据管理阶段的理解，也来自简报中概述的各类合法利益；它们被组织成几个部分，涵盖数据集的一般信息、数据源和单个数据集、数据多样性以及训练中的数据加工。

整个蓝图非常值得一读，从业者和其他利益相关方的评论也很受欢迎！以下重点内容可以让您了解所涉及的问题类型和采取的方法：

3.2 数据源类型、来源与用途的多样性

欧盟AI法案要求提供用于训练GPAI系统的数据摘要。然而，在当前模型训练的实践中，这涵盖了许多不同类型的数据，用于许多不同的用途——根据获取方式（如公开可访问的网络数据、从版权持有者处获得许可的数据、从数据工作者处购买的数据、商业系统部署中的用户数据等）和用途（如具有给定训练目标的预训练、微调、验证或评估、性能或安全等），这些数据需要不同类型的文档。

这种多样性凸显了简洁性要求与支持摘要所需的足够细节之间的紧张关系：虽然为所有这些类型的数据集和数据来源提出单一的文档格式可能很诱人，但它们在社会和法律背景方面的有意义差异以及对训练系统的影响，可能会通过淹没在不同背景下最相关的特定信息而使摘要变得无关紧要。

3.3 网络域名分布头部的记录

在AI数据讨论中受到特别关注的一个训练数据背景是预训练中网络爬取数据的使用。从公开网络来源获取的数据（通过处理CommonCrawl档案或公司自己的网络抓取工具）构成了GPAI训练数据摘要所涵盖材料的重要部分。

网络规模的爬取数据集很难系统地记录，尤其是在静态格式中，但为权利持有者和有合法利益的组织提供有意义信息的一种方法是列出它们包含的主要网络域名。例如，Google Deepmind提供了MassiveWeb数据集的前20个域名（Gopher LLM论文，2021年，附录A），这些域名合计占整个数据的15%，并让人很好地了解了筛选过程中优先考虑的文本类型。

比MassiveWeb更新的基于网络的数据集已经变得大了几个数量级，但顶级域名仍然提供有意义的信息。例如，在最近发布的FineWeb数据集（2024年）中，包括来自400万个域名的数据，前100个域名占数据集中页面的5%，前1000和前10000个分别占13%和28%（而仅代表域名的0.025%和0.25%）。

将这些列表作为数据摘要的一部分，为有合法利益的一方提供了很高的价值，他们可以独立调查这些网络域名上托管的文本和媒体类型，以得出关于技术的结论，同时最大限度地减少开发人员尝试预测这些问题可能需要的工作量。