1. 从文字接龙到自主行动:AI技术栈的完整进化路径
作为一名长期跟踪AI技术发展的从业者,我最近花了一整天时间系统梳理了从基础大语言模型到高级智能体的完整技术链条。这个过程让我意识到,很多人在讨论AI时往往只关注某个局部概念,而忽视了技术演进的整体脉络。今天,我想把这些知识点串联起来,用最直白的语言为大家呈现AI技术从底层到应用的完整图景。
这个技术栈可以形象地看作一座八层金字塔:
- 最底层是LLM(大语言模型),它是所有AI能力的基石
- 往上依次是Token、Context、Prompt等基础概念
- 然后是Tool和MCP这类扩展能力的工具层
- 最上层则是Agent、Skill和Harness Engineering等高级应用
理解这个架构后,你就能清晰定位任何AI新概念在技术栈中的位置,也能更准确地评估各种AI产品的技术成熟度。下面我们就从最底层开始,一层层揭开这个技术金字塔的面纱。
2. 基础层:大语言模型的工作原理
2.1 LLM的本质是超级文字接龙引擎
大语言模型(Large Language Model,简称LLM)是当前所有AI应用的核心引擎。无论是ChatGPT、Claude还是Gemini,它们的底层都是基于Transformer架构训练的LLM。这个架构由Google在2017年提出,但真正让它大放异彩的是OpenAI在2022年底发布的ChatGPT。
LLM的工作原理出奇地简单——本质上就是一个高级版的文字接龙游戏。在训练过程中,模型被喂入海量文本数据,学习预测"给定前面的文字,下一个最可能出现的词是什么"。比如看到"今天天气真",它学会接"好";看到"for i in range",它学会接"(10):"。
这个看似简单的任务,当重复数万亿次后,就产生了一个惊人的副产品:模型不仅能完成句子,还能写出连贯的段落、文章甚至代码。但要注意的是,模型每次实际上只生成一个词(Token),然后把这个词加回到输入中,继续预测下一个词,直到生成结束标记。这就是为什么AI的回复总是一个词一个词往外蹦。
2.2 Token:AI眼中的语言基本单位
在LLM的世界里,文字不是以我们熟悉的"字"或"词"为单位处理的,而是被切分成更小的片段——Token。Token可以理解成模型自己学会的一套文本切分规则:
- 英文中,"helpful"可能被分成"help"和"ful"两个Token
- 中文里,"人工智能工程师"可能被切分为"人工"、"智能"、"工程"、"师"四个Token
粗略换算:
- 1个Token ≈ 0.75个英文单词
- 1个Token ≈ 1.5-2个汉字
Token的重要性体现在:
- 它是所有AI产品计费和限制的基本单位
- 它决定了模型处理文本的效率
- 不同模型可能有不同的Token化方式
2.3 Context:模型的短期记忆
当我们与AI对话时,它似乎能记住之前的对话内容。但实际上,LLM本身是没有记忆的——它只是一个数学函数,每次调用都是独立的。所谓的"记忆"是通过Context(上下文)实现的:
- 每次你发送新消息时,系统会把整个对话历史(Context)和新问题一起发给模型
- 模型基于完整的Context生成回复
- 这个Context就是模型的"短期记忆体"
Context Window(上下文窗口)则决定了这个记忆体的大小。目前主流模型的上下文窗口已经达到百万Token级别:
- GPT-4 Turbo:128k Token
- Claude 3 Opus:200k Token
- 一些开源模型:可达1M Token
100万Token大约能装下整套《哈利波特》系列小说。随着上下文窗口的扩大,AI处理长文档和复杂对话的能力显著提升。
3. 交互层:如何有效与AI沟通
3.1 Prompt:给AI的指令设计
Prompt(提示词)是我们与AI交互的基本方式。一个好的Prompt应该:
- 明确任务目标
- 提供足够的背景信息
- 指定输出格式和要求
举例来说:
- 模糊Prompt:"帮我写首诗"
- 明确Prompt:"请写一首七言律诗,主题是春天踏青,要求对仗工整,押平水韵"
Prompt可以分为两类:
- User Prompt:用户直接输入的指令
- System Prompt:开发者设置的背景指令,用于塑造AI的行为模式
System Prompt的例子:
"你是一位有10年经验的Java开发专家,回答问题时应当:
- 先给出简明扼要的结论
- 然后分步骤解释实现原理
- 最后提供可运行的代码示例
避免使用过于学术化的语言,保持回答实用性强。"
3.2 Prompt Engineering的演变
早期,Prompt Engineering(提示词工程)是一个专门的研究领域,因为当时的模型对Prompt非常敏感。但随着模型能力的提升:
- 基础Prompt技巧变得普及化
- 模型对模糊Prompt的容错能力增强
- System Prompt的作用越来越重要
现在的趋势是:
- 基础Prompt技巧成为必备技能
- 高级Prompt工程转向系统级设计
- 结合few-shot learning等技术提升效果
4. 能力扩展层:让AI连接现实世界
纯LLM就像一个与世隔绝的天才——知识丰富但无法主动获取外部信息。Tool(工具)的引入打破了这一限制,让AI能够:
- 查询实时信息(如天气、股价)
- 执行具体操作(发送邮件、操作数据库)
- 访问专业系统(CAD设计、代码执行)
工具调用流程:
- 用户提问
- 平台将问题+可用工具列表发送给模型
- 模型决定是否需要调用工具
- 如需调用,模型生成工具调用指令
- 平台执行实际调用并返回结果
- 模型整合结果生成最终回复
关键点:
- 模型本身不能直接调用工具,只能生成调用指令
- 实际执行由平台完成
- 工具扩展了AI的能力边界
4.2 MCP:工具生态的USB接口
随着工具数量的增加,标准化变得至关重要。Model Context Protocol(MCP)应运而生,它相当于AI工具生态的USB标准:
- 统一接口规范:定义工具发现、连接和调用的标准方式
- 跨平台兼容:一次开发,多平台使用
- 支持多种后端:可以封装API、数据库、本地代码等
MCP的价值:
- 降低工具开发成本
- 促进工具生态发展
- 提高AI系统的可扩展性
当前主要AI平台都已支持或正在适配MCP标准,这将成为AI工具生态的基础设施。
5. 智能体层:自主行动的AI
5.1 Agent:从工具使用者到问题解决者
当AI具备工具调用能力后,自然进化出更高级的形态——Agent(智能体)。与基础LLM相比,Agent的特点是:
- 自主性:能够独立规划任务步骤
- 持续性:可以处理需要多次交互的复杂任务
- 工具使用:灵活组合多种工具解决问题
Agent的工作循环:
- 接收任务
- 分析并规划步骤
- 决定是否需要调用工具
- 执行行动(包括工具调用)
- 评估结果
- 重复2-5直到任务完成
典型Agent产品:
- Claude Code:面向开发任务的智能体
- OpenClaw:开源的本地AI智能体框架
- AutoGPT:自动化任务处理Agent
5.2 Skill:让Agent按你的方式工作
为了让Agent更符合特定需求,Skill(技能)应运而生。Skill是一套预定义的:
- 任务规范
- 执行流程
- 输出要求
- 示例模板
Skill与Tool的关键区别:
- Tool提供基础能力(如"查天气")
- Skill定义完整工作流(如"每日晨报生成")
一个典型的天气Skill可能包含:
- 获取当前位置
- 查询当地天气
- 根据天气状况生成穿衣建议
- 按指定格式输出提醒
Skill使Agent从"能干活"进化到"会按你的标准干活"。
6. 工程保障层:让AI更可靠
6.1 Harness Engineering:AI的安全绳
随着Agent承担的任务越来越重要,可靠性成为关键挑战。Harness Engineering(约束工程)就是为此而生的一套方法论和实践:
-
硬性约束:
-
状态追踪:
-
自动验证:
-
人工监督:
6.2 为什么需要Harness Engineering?
LLM存在三个固有特性:
- 非确定性:相同输入可能产生不同输出
- 幻觉倾向:会生成看似合理但不真实的内容
- 错误累积:在多步任务中错误会被放大
Harness Engineering通过系统化方法控制这些风险,使AI系统达到生产环境要求的可靠性水平。
7. 技术栈全景与应用展望
7.1 完整技术栈梳理
现在让我们从下到上回顾整个技术栈:
-
基础层:
- LLM:大语言模型引擎
- Token:文本处理单元
- Context:短期记忆机制
-
交互层:
- Prompt:用户指令设计
- System Prompt:行为塑造
-
能力扩展层:
-
智能体层:
- Agent:自主问题解决者
- Skill:定制化任务流程
-
工程保障层:
- Harness Engineering:可靠性保障体系
7.2 应用前景与学习建议
当前AI技术发展呈现几个明显趋势:
-
专业化:
- 垂直领域模型涌现
- 工具链日趋完善
- 行业解决方案成熟
-
工程化:
- 从demo走向生产
- 可靠性要求提高
- 开发流程规范化
-
普及化:
对于希望进入这个领域的学习者,我建议的学习路径是:
-
基础阶段:
- 掌握LLM基本原理
- 熟练Prompt设计
- 了解Token和Context
-
进阶阶段:
- 学习工具开发与集成
- 实践Agent构建
- 掌握Skill设计
-
专业阶段:
- 深入Harness Engineering
- 研究行业解决方案
- 参与实际项目开发
AI技术正在从单纯的文本生成向完整的智能系统演进。理解这个完整技术栈,将帮助你在AI时代把握技术脉搏,做出更明智的职业和技术决策。