大模型岗位解析：五大核心方向与技术栈指南-AI智能范式网

大模型岗位解析：五大核心方向与技术栈指南

孙宝英

1. 大模型岗位全景解析：从入门到精准定位

最近两年，大模型技术彻底改变了AI行业的就业格局。我身边至少有20位从事传统NLP、CV的朋友在去年完成了向大模型方向的转型，薪资涨幅普遍在30%-50%之间。但与此同时，新入行的同学普遍面临一个困惑：大模型相关岗位名称五花八门，JD描述又高度相似，到底该如何选择适合自己的发展方向？

以2023年某头部大厂的招聘数据为例，大模型相关岗位数量同比增长了370%，但岗位细分维度却增加了5倍。这种爆发式增长带来的信息不对称，让很多求职者陷入了选择困难。本文将基于我近三年参与大模型团队组建和校招面试的经验，为你拆解这个新兴领域的岗位矩阵。

2. 五大核心岗位详解与技术栈对照

2.1 算法工程师：模型能力的塑造者

2.1.1 基座模型岗：大模型时代的"造车人"

基座模型研发是目前技术门槛最高的方向，主要分为三个技术流派：

理论派：专注Transformer架构创新。我参与面试的候选人中，90%都需要在白板上推导Flash Attention的数学原理。典型工作包括：
- 设计新型Attention机制（如2023年流行的MQA/GQA）
- 探索MoE架构的动态路由算法
- 研究模型 scaling law 的突破方法
工程派：需要处理千卡集群的分布式训练问题。以我们团队最近训练的340B模型为例，关键技术挑战包括：
- 3D并行策略优化（数据/模型/流水线并行）
- 显存优化（ZeRO-3 + Activation Checkpointing）
- 训练稳定性控制（梯度裁剪系数设为1.0还是2.0？）
能力派：Agent方向今年特别火爆。一个常见的误区是认为Agent就是API调用，实际上核心工作在于：
- 工具使用能力的原生微调（Toolformer范式）
- 复杂任务分解的强化学习（比如让模型自主决定是否要调用计算器）
- 环境交互的鲁棒性提升（处理API调用失败等边缘情况）

重要提示：基座模型岗通常要求顶会论文（NeurIPS/ICML/ICLR），但数据清洗经验可以弥补论文短板。我们团队去年录用的两名候选人就是凭借在The Stack数据集上的预处理工作获得offer。

2.1.2 应用算法岗：行业落地的"改装专家"

这是目前人才需求最大的方向，占我们团队招聘量的60%。与基座模型不同，应用算法更关注：

领域适配技术：
- 金融领域：如何处理PDF表格和财报数字的语义理解？
- 医疗领域：怎样让模型理解医学影像报告的专业术语？
效率优化方案：
- 模型裁剪：使用LLM-Pruner还是Wanda算法？
- 知识蒸馏：如何设计教师-学生模型的数据流？
工程化能力：
- 现在要求算法工程师能独立完成Flask API封装
- 需要了解基本的Kubernetes部署知识

最近一个有趣的趋势是：Agent应用开发正在模糊算法和开发的界限。我们有个电商客户的项目，既需要改进思维链提示工程，又要开发订单状态查询工具，最终是由算法工程师主导了整个流程。

2.2 开发工程师：大模型系统的"组装工"

大模型开发岗最大的特点是技术栈的"分裂"：

传统后端开发：
- 使用Java/Go构建高并发API网关
- 实现请求限流和负载均衡（比如令牌桶算法）
- 开发异步任务队列处理长文本生成
AI原生开发：
- 构建类LangChain的编排框架
- 优化RAG流程中的向量检索速度
- 设计流式传输方案（SSE协议实践）

关键区分点：如果JD中出现"分布式系统"、"性能优化"等关键词，通常是传统开发岗；而提到"提示工程"、"Agent框架"则偏向AI原生开发。

2.3 Infra工程师：大模型的"赛车维修队"

AI Infra可能是技术栈最深的岗位，主要分为三个方向：

训练基础设施：
- 定制化Megatron-LM训练框架
- 调试NCCL通信问题（遇到过RDMA连接闪断的坑）
- 优化混合精度训练（FP8的实践还在探索中）
推理加速：
- 实现vLLM的PagedAttention
- 部署TGI服务并优化批处理策略
- 试验Quantization方案（AWQ vs GPTQ）
硬件适配：
- 在国产芯片（如昇腾）上移植模型
- 调试CUDA Kernel（比如手写FlashAttention）

建议学习路径：先精通PyTorch分布式训练，然后研究DeepSpeed源码，最后参与vLLM社区贡献。

2.4 数据工程师：大模型的"营养师"

优质数据已成为大模型竞争的关键。我们团队的数据处理Pipeline包含：

数据获取：
- 构建千万级网页爬虫集群
- 处理Common Crawl的原始数据
数据清洗：
- 使用FastText检测低质量内容
- 设计去重算法（SimHash参数调优）
- 多语言文本规范化处理
数据标注：
- 设计RLHF标注规范（如何定义"有帮助"的回答？）
- 开发众包质检工具（识别偷懒的标注员）

最近在做一个有趣的项目：用7B模型自动生成训练13B模型的数据，正在验证这种"模型自举"方案的效果。

2.5 评估工程师：大模型的"驾考官"

评估岗正在经历从人工测试到自动化评测的转变：

基准测试：
- 设计领域特定的评估指标（比如法律条款的覆盖度）
- 构建对抗性测试案例（如何"骗"过模型？）
安全评估：
- 红队测试：系统化的Prompt注入攻击
- 偏见检测：构建敏感词词库
用户体验：
- 设计A/B测试方案（响应速度vs回答质量）
- 分析用户交互日志（发现80%的用户会修改默认提示词）

这个岗位特别适合细心且具备统计学基础的同学，我们最近发现很多语言学背景的候选人表现出色。

3. 岗位选择与学习路线建议

3.1 能力匹配度自测表

岗位类型	数学要求	编程要求	论文要求	工程经验	适合背景
基座模型理论派	★★★★★	★★★☆☆	★★★★★	★★☆☆☆	理论计算机科学、数学系
基座模型工程派	★★★☆☆	★★★★★	★★★☆☆	★★★★★	分布式系统、高性能计算
应用算法	★★★☆☆	★★★★☆	★★☆☆☆	★★★★☆	传统算法岗转行
开发工程师	★★☆☆☆	★★★★★	☆☆☆☆☆	★★★★★	Web后端开发转行
AI Infra	★★★★☆	★★★★★	★★★☆☆	★★★★★	系统软件、编译器方向
数据工程师	★★☆☆☆	★★★☆☆	☆☆☆☆☆	★★★☆☆	数据分析、NLP数据处理
评估工程师	★★★☆☆	★★☆☆☆	★☆☆☆☆	★★☆☆☆	语言学、心理学背景

3.2 转型策略与资源推荐

对于不同背景的求职者，我建议的突破路径：

计算机科班生：

先通过《动手学深度学习》掌握基础
用HuggingFace Transformers复现经典论文
参与Kaggle LLM相关比赛（如Feedback Prize）
在个人博客记录学习过程（面试官真的会看）

非科班转行者：

从LangChain入门应用开发
在GitHub上贡献文档翻译
用Gradio快速搭建Demo
参加AI Hackathon积累项目经验

重点资源推荐：

理论方向：《Transformers for Machine Learning》
工程方向：《Deep Learning Systems》课程
应用方向：LangChain官方文档+AI小镇项目

4. 行业趋势与职业发展洞察

4.1 技术融合带来的岗位演变

我们发现三个明显趋势：

全栈化：算法工程师开始写Dockerfile，开发人员要懂Prompt Engineering
工具平民化：AutoGPT降低开发门槛，但提高了系统设计复杂度
评估标准化：MLCommons正在建立大模型评测规范

最近面试时，我会特别关注候选人的"技术广度"。上周遇到一位同学，既能用PyTorch实现LoRA，又能用React搭建管理界面，这种复合型人才特别抢手。

4.2 薪资水平与职业路径

根据2024年最新调研数据（样本量200+）：

岗位	初级(0-2年)	中级(3-5年)	高级(5年+)
基座模型算法	40-60W	70-100W	120W+
应用算法	30-50W	50-80W	90-120W
AI Infra	35-55W	60-90W	100-150W
大模型开发	25-40W	45-70W	80-100W

职业发展通常有两种路径：

专家路线：在特定领域深耕（如成为MoE架构专家）
管理路线：带领AI产品团队（需要补充商业知识）

4.3 给新人的特别建议

不要过度追求"热门方向"：Agent确实火爆，但基础的数据处理能力才是长期竞争力
保持代码输出：GitHub上200行有价值的代码胜过空洞的项目描述
建立技术判断力：学会区分技术噱头（如某些Chain-of-Thought变体）和真正创新
关注开源社区：EleutherAI、OpenBMB等组织的Slack频道是获取前沿信息的绝佳渠道

最近在review简历时发现一个有趣现象：拥有个人技术博客的候选人，通过率比其他候选人高40%。这反映出在这个快速发展的领域，持续学习和输出能力变得愈发重要。