两周前,OpenFuture和Mozilla联合发布了一份针对欧盟《人工智能法案》要求的"足够详细的"通用人工智能(GPAI)训练数据集摘要模板提案。这份提案源于与多位贡献者(包括本文作者)的深入讨论,并附有一份由Zuzanna Warso主导、Maximilian Gahntz和Paul Keller共同参与撰写的优秀政策简报。这份名为《迈向稳健的训练数据透明度》的简报,在当前阶段堪称欧盟AI法案训练数据摘要领域最全面的提案之一。
这份提案之所以突出,在于它同时解决了两个关键问题:一是涵盖了利益相关方对GPAI系统可能提出的各类合理问题;二是在不同约束条件之间找到了必要的平衡点。虽然AI办公室仍需进一步讨论和工作以达成最终版本,但该初步提案考虑的广度使其成为一个强有力的起点——或者说,是支持持续对话的重要参考文件。
欧盟数据摘要虽然与数据声明(datastatements)、数据表(datasheets)或数据营养标签(datanutritionlabels)等数据集文档格式有部分共同目标,但理解其要求的独特性对于管理大型复杂AI系统文档化过程中的各种利益权衡至关重要。
政策简报首先审视了这项数据摘要的监管授权:它必须"足够详细"以满足欧盟公民和组织在欧盟法律下维护其权利的合法利益需求,同时"适当考虑保护商业秘密的需要"。法案当前文本明确将版权列为这类合法利益之一,欧盟法律和宪章还支持隐私与数据保护权、科学权、非歧视和公平竞争等权利——正如简报所述,所有这些权利的保障都依赖于关于GPAI训练数据的信息。
这使欧盟数据摘要成为一种隐含的权衡行为。提供的训练数据信息必须在两个相互竞争的利益间找到平衡:一方面,信息要有足够的意义,使对GPAI开发过程和特性有各种合理疑问的利益相关方能够获得充分的调查起点;另一方面,又要对商业秘密给予"适当考虑"——但不是绝对服从。
模板还应避免要求过于复杂的流程,以免排除善意但资源较少的参与者,这些参与者的组织约束条件可能与大公司不同。为此,模板应针对所需信息类型设定直接且不言自明的最低要求。
OpenFuture和Mozilla提出的方案通过引入围绕特定问题构建的蓝图来解决这些矛盾。这些问题既来自从业者对模型训练中不同数据管理阶段的理解,也来自简报中概述的各类合法利益;它们被组织成几个部分,涵盖数据集的一般信息、数据源和单个数据集、数据多样性以及训练中的数据加工。
整个蓝图非常值得一读,从业者和其他利益相关方的评论也很受欢迎!以下重点内容可以让您了解所涉及的问题类型和采取的方法:
欧盟AI法案要求提供用于训练GPAI系统的数据摘要。然而,在当前模型训练的实践中,这涵盖了许多不同类型的数据,用于许多不同的用途——根据获取方式(如公开可访问的网络数据、从版权持有者处获得许可的数据、从数据工作者处购买的数据、商业系统部署中的用户数据等)和用途(如具有给定训练目标的预训练、微调、验证或评估、性能或安全等),这些数据需要不同类型的文档。
这种多样性凸显了简洁性要求与支持摘要所需的足够细节之间的紧张关系:虽然为所有这些类型的数据集和数据来源提出单一的文档格式可能很诱人,但它们在社会和法律背景方面的有意义差异以及对训练系统的影响,可能会通过淹没在不同背景下最相关的特定信息而使摘要变得无关紧要。
在AI数据讨论中受到特别关注的一个训练数据背景是预训练中网络爬取数据的使用。从公开网络来源获取的数据(通过处理CommonCrawl档案或公司自己的网络抓取工具)构成了GPAI训练数据摘要所涵盖材料的重要部分。
网络规模的爬取数据集很难系统地记录,尤其是在静态格式中,但为权利持有者和有合法利益的组织提供有意义信息的一种方法是列出它们包含的主要网络域名。例如,Google Deepmind提供了MassiveWeb数据集的前20个域名(Gopher LLM论文,2021年,附录A),这些域名合计占整个数据的15%,并让人很好地了解了筛选过程中优先考虑的文本类型。
比MassiveWeb更新的基于网络的数据集已经变得大了几个数量级,但顶级域名仍然提供有意义的信息。例如,在最近发布的FineWeb数据集(2024年)中,包括来自400万个域名的数据,前100个域名占数据集中页面的5%,前1000和前10000个分别占13%和28%(而仅代表域名的0.025%和0.25%)。
将这些列表作为数据摘要的一部分,为有合法利益的一方提供了很高的价值,他们可以独立调查这些网络域名上托管的文本和媒体类型,以得出关于技术的结论,同时最大限度地减少开发人员尝试预测这些问题可能需要的工作量。
提案要求开发者披露数据收集方法,包括是否使用网络爬虫、API访问或人工标注。对于网络爬取的数据,需要说明爬取的时间范围、地理限制和语言分布。这种级别的细节有助于评估数据集可能存在的偏见和局限性。
重要提示:在披露数据收集方法时,应避免包含任何可能泄露商业机密的具体技术参数,如专有算法的细节或内部数据处理流程。
提案建议记录数据清洗和预处理的步骤,包括但不限于:
这些信息对于理解最终训练数据的特性和潜在偏差至关重要。例如,过度激进的内容过滤可能导致数据集失去某些边缘群体的代表性。
提案要求提供数据组成的基本统计信息,包括:
对于多模态模型,还需要说明不同媒体类型(文本、图像、视频等)的比例和相互关系。这些指标有助于评估模型在不同场景下的适用性和潜在偏差。
提案特别关注训练数据中受版权保护内容的处理方式。建议披露:
这种透明度有助于版权持有人评估其权利是否受到尊重,也为潜在的版权争议提供了解决基础。
对于可能包含个人数据的数据集,提案要求说明:
这些要求与欧盟严格的数据保护法规保持一致,确保AI训练过程不侵犯个人隐私权。
提案鼓励开发者披露:
这些信息对于确保AI系统不加剧社会不平等至关重要,也符合欧盟非歧视原则。
提案认识到过度披露可能损害企业的竞争优势,因此建议:
这种方法既满足了透明度要求,又保护了合理的商业利益。
考虑到资源有限的开发者,提案设计了可扩展的披露要求:
这种分层方法确保要求不会成为小型创新者的过度负担。
鉴于AI模型可能持续更新,提案建议:
这种机制保持了透明度随时间推移的连续性。
提案参考了几种现有的AI数据披露实践:
吸取这些模式的经验教训,提案力求在全面性和实用性间找到平衡。
一些前沿AI公司已开始自愿披露训练数据信息,如:
这些实践证明了技术可行性,也为标准化提供了参考。
提案强调需要:
这种协作对于制定切实可行的透明度标准至关重要。
为支持提案实施,需要开发:
这些工具可以降低合规成本,提高披露质量。
建议欧盟AI办公室:
明确的指导有助于统一行业理解。
提案本身也应:
这种演进性确保标准保持相关性和有效性。
在实际操作中,我发现最关键的挑战在于如何将复杂的技术细节转化为对各类利益相关方都有意义的信息。过于技术化的描述可能让非专业人士难以理解,而过度简化又可能丢失重要细节。解决这一矛盾需要跨学科的协作和创新的沟通方式。