AI术语指南：从基础到实战的必备知识

今晚摘大星星吗

1. 为什么你需要这份AI术语指南？

最近两年AI技术发展实在太快了。上周刚学会"大模型"是什么意思，这周开会就听到同事说"要用RAG架构配合LoRA微调"。作为非技术背景的职场人，你是不是经常遇到这种情况？

我去年刚转行做AI产品经理时，每次技术评审会都如坐针毡。工程师们讨论"token消耗"、"embedding优化"、"多模态对齐"，我只能假装听懂频频点头。直到有次老板问我"这个需求用few-shot learning实现怎么样"，我支支吾吾答不上来，才下定决心要攻克术语关。

经过半年实战，我整理了这份"说人话"的术语表。和教科书不同，这里每个解释都经过真实工作场景验证，用最生活化的类比帮你理解。比如：

术语	专业解释	生活类比	使用场景示例
AI	模拟人类智能行为的技术系统	智能工厂总调度	客服机器人自动回答常见问题
AGI	具备人类水平通用智能的AI	全能型天才	目前尚未实现，科幻电影中的AI角色
AIGC	AI生成文字/图像/视频等内容	自动化内容工厂	用ChatGPT写邮件，Midjourney作图
大模型	参数量巨大的预训练语言模型	行走的百科全书	GPT-4、Claude等主流AI系统

注意：AGI（通用人工智能）目前仍停留在理论阶段，现在市面上的AI都属于ANI（狭义人工智能），只能在特定领域表现出色。

上周我让实习生优化prompt，他交来的结果惨不忍睹。后来发现他根本不懂什么是好的prompt。这些基础概念直接影响工作效率：

实测案例：我们曾用300token的prompt生成产品文档，效果比50token的版本好3倍。但要注意，GPT-4每1000token收费0.03美元，长篇文档成本会累积。

第一次听工程师说"用无监督学习处理用户行为数据"时，我完全懵了。后来才明白不同学习方式的适用场景：

学习类型	工作原理	类比	典型应用场景
监督学习	用标注数据训练	老师批改作业	图像分类、垃圾邮件识别
无监督学习	从无标注数据中发现模式	考古学家研究文物	用户分群、异常检测
强化学习	通过奖励机制优化行为	训练宠物	游戏AI、自动驾驶
半监督学习	结合少量标注和大量未标注数据	师傅带徒弟入门后放手	医学影像分析

实操建议：选择学习方式时要考虑数据情况。我们做用户画像时，因为只有5%的用户有标签，最终采用半监督学习，准确率比纯监督学习高22%。

这些是技术文档里最常出现的高频术语，掌握后就能听懂80%的技术讨论：

案例分享：我们给法律AI做fine-tuning时，先用2000条裁判文书训练基础模型，再用LoRA方法针对合同法专项优化，最终准确率提升37%。

去年我们采购服务器时，CTO和CFO为选GPU还是TPU争论不休。不同芯片的特性对比：

成本提示：A100显卡每小时使用费约1美元，而TPU v3只要0.35美元。我们最终选择TPU集群，每月节省2万多美元。

我在这些概念上栽过跟头，希望你别重蹈覆辙：

Fine-tuning vs Prompt-tuning
- Fine-tuning：直接修改模型参数（像整容手术）
- Prompt-tuning：只优化输入提示（像化妆打扮）
Token vs Parameter
- Token：输入输出的"字数"单位
- Parameter：模型内部的"脑细胞"数量
AGI vs 大模型
- AGI是理论概念
- 大模型是现有技术

最近我们项目就踩了个坑：以为LoRA能省90%算力，实际测试只省了60%。后来发现是因为数据质量不达标，重新清洗数据后才达到预期效果。

最后送大家一张浓缩版对照表，开会前5分钟快速浏览就够用：