去年我在团队内部做技术分享时,发现很多新人对LLM、Agent和MCP这些概念的理解存在断层。有人死磕论文却不会调API,有人能跑通Demo却说不出原理差异,这种"知识孤岛"现象在快速迭代的AI领域尤为明显。于是我用三个月时间梳理了这份学习地图,它不同于普通的课程列表,而是按照"认知-实践-贯通"三阶段设计的立体学习路径。
这份地图最核心的价值在于:它用可视化的方式揭示了不同技术模块之间的关联关系。比如当你学习LangChain时,会同步标注出这与MCP中的哪部分设计理念相通;研究Agent工作流时,会提示需要提前掌握的LLM底层知识。目前已有600+开发者通过这份地图建立了系统化的知识框架,其中不乏从非科班转型成功的案例。
地图采用"技术栈深度×应用场景宽度×时间演进轴"的立体结构:
这种设计确保学习者既能深入单个技术点,又能看清其在全局中的位置。比如学习RLHF时,会同时看到它在LLM微调(技术栈)和对话系统(场景)中的不同应用形态。
地图包含三个渐进式阶段:
!pip install transformers快速体验文本生成每个阶段都设有"逃生通道",当卡壳时可自动降级到更基础的内容模块。例如在微调Llama2遇到OOM错误时,系统会推送显存优化专题教程。
nn.MultiheadAttention的实现| 需求场景 | 推荐模型 | 显存占用 | 典型应用 |
|---|---|---|---|
| 中文对话 | ChatGLM3-6B | 12GB | 客服系统 |
| 代码生成 | StarCoder-15B | 24GB | IDE插件 |
| 多轮推理 | GPT-4 | API调用 | 复杂Agent |
python复制# 关键参数配置示例
trainer = Trainer(
model=model,
args=TrainingArguments(
per_device_train_batch_size=4,
gradient_accumulation_steps=8,
warmup_steps=500,
fp16=True # 30系以上显卡必开
),
data_collator=DataCollatorForLanguageModeling(tokenizer, mlm=False)
)
mermaid复制graph TD
A[用户输入] --> B(Plan生成)
B --> C{是否需要工具?}
C -->|Yes| D[调用搜索引擎]
C -->|No| E[直接生成回复]
D --> F[结果提炼]
E --> G[回复用户]
F --> G
python复制def retrieve_memory(query):
embeddings = model.encode(query)
return vector_db.search(embeddings, top_k=3)
python复制try:
result = tool.run(input)
except ToolException as e:
return f"工具执行失败: {e}. 建议采取以下措施: 1.检查API密钥 2.验证输入格式"
| 模块 | 参数 | 推荐值 | 作用 |
|---|---|---|---|
| 记忆 | top_k | 3-5 | 召回记忆条数 |
| 认知 | temperature | 0.3-0.7 | 生成多样性 |
| 规划 | max_depth | 3 | 任务分解层级 |
| 周次 | 重点内容 | 实践项目 |
|---|---|---|
| 1 | Python数据处理基础 | 爬取知乎问答数据 |
| 2 | Transformer原理 | 复现Attention可视化 |
| 3 | HuggingFace生态 | 微调情感分析模型 |
| 4 | LangChain入门 | 构建PDF问答工具 |
| 5 | Agent设计 | 电商客服模拟器 |
| 6 | MCP整合 | 智能日程管理系统 |
code复制/learning_map
├── /foundation # 基础理论
├── /projects # 实战项目
├── /cheatsheets # 速查表
└── roadmap.pdf # 可视化地图
pip freeze > requirements.txt管理环境在实际教学中发现,坚持每天2小时系统学习的效果,远优于周末突击10小时。建议设置每日最小承诺量(如完成1个小节+运行1个示例)