1. 大模型岗位全景解析:从入门到精准定位
最近两年,大模型技术彻底改变了AI行业的就业格局。我身边至少有20位从事传统NLP、CV的朋友在去年完成了向大模型方向的转型,薪资涨幅普遍在30%-50%之间。但与此同时,新入行的同学普遍面临一个困惑:大模型相关岗位名称五花八门,JD描述又高度相似,到底该如何选择适合自己的发展方向?
以2023年某头部大厂的招聘数据为例,大模型相关岗位数量同比增长了370%,但岗位细分维度却增加了5倍。这种爆发式增长带来的信息不对称,让很多求职者陷入了选择困难。本文将基于我近三年参与大模型团队组建和校招面试的经验,为你拆解这个新兴领域的岗位矩阵。
2. 五大核心岗位详解与技术栈对照
2.1 算法工程师:模型能力的塑造者
2.1.1 基座模型岗:大模型时代的"造车人"
基座模型研发是目前技术门槛最高的方向,主要分为三个技术流派:
-
理论派:专注Transformer架构创新。我参与面试的候选人中,90%都需要在白板上推导Flash Attention的数学原理。典型工作包括:
- 设计新型Attention机制(如2023年流行的MQA/GQA)
- 探索MoE架构的动态路由算法
- 研究模型 scaling law 的突破方法
-
工程派:需要处理千卡集群的分布式训练问题。以我们团队最近训练的340B模型为例,关键技术挑战包括:
- 3D并行策略优化(数据/模型/流水线并行)
- 显存优化(ZeRO-3 + Activation Checkpointing)
- 训练稳定性控制(梯度裁剪系数设为1.0还是2.0?)
-
能力派:Agent方向今年特别火爆。一个常见的误区是认为Agent就是API调用,实际上核心工作在于:
- 工具使用能力的原生微调(Toolformer范式)
- 复杂任务分解的强化学习(比如让模型自主决定是否要调用计算器)
- 环境交互的鲁棒性提升(处理API调用失败等边缘情况)
重要提示:基座模型岗通常要求顶会论文(NeurIPS/ICML/ICLR),但数据清洗经验可以弥补论文短板。我们团队去年录用的两名候选人就是凭借在The Stack数据集上的预处理工作获得offer。
2.1.2 应用算法岗:行业落地的"改装专家"
这是目前人才需求最大的方向,占我们团队招聘量的60%。与基座模型不同,应用算法更关注:
-
领域适配技术:
- 金融领域:如何处理PDF表格和财报数字的语义理解?
- 医疗领域:怎样让模型理解医学影像报告的专业术语?
-
效率优化方案:
- 模型裁剪:使用LLM-Pruner还是Wanda算法?
- 知识蒸馏:如何设计教师-学生模型的数据流?
-
工程化能力:
- 现在要求算法工程师能独立完成Flask API封装
- 需要了解基本的Kubernetes部署知识
最近一个有趣的趋势是:Agent应用开发正在模糊算法和开发的界限。我们有个电商客户的项目,既需要改进思维链提示工程,又要开发订单状态查询工具,最终是由算法工程师主导了整个流程。
2.2 开发工程师:大模型系统的"组装工"
大模型开发岗最大的特点是技术栈的"分裂":
-
传统后端开发:
- 使用Java/Go构建高并发API网关
- 实现请求限流和负载均衡(比如令牌桶算法)
- 开发异步任务队列处理长文本生成
-
AI原生开发:
- 构建类LangChain的编排框架
- 优化RAG流程中的向量检索速度
- 设计流式传输方案(SSE协议实践)
关键区分点:如果JD中出现"分布式系统"、"性能优化"等关键词,通常是传统开发岗;而提到"提示工程"、"Agent框架"则偏向AI原生开发。
2.3 Infra工程师:大模型的"赛车维修队"
AI Infra可能是技术栈最深的岗位,主要分为三个方向:
-
训练基础设施:
- 定制化Megatron-LM训练框架
- 调试NCCL通信问题(遇到过RDMA连接闪断的坑)
- 优化混合精度训练(FP8的实践还在探索中)
-
推理加速:
- 实现vLLM的PagedAttention
- 部署TGI服务并优化批处理策略
- 试验Quantization方案(AWQ vs GPTQ)
-
硬件适配:
- 在国产芯片(如昇腾)上移植模型
- 调试CUDA Kernel(比如手写FlashAttention)
建议学习路径:先精通PyTorch分布式训练,然后研究DeepSpeed源码,最后参与vLLM社区贡献。
2.4 数据工程师:大模型的"营养师"
优质数据已成为大模型竞争的关键。我们团队的数据处理Pipeline包含:
-
数据获取:
- 构建千万级网页爬虫集群
- 处理Common Crawl的原始数据
-
数据清洗:
- 使用FastText检测低质量内容
- 设计去重算法(SimHash参数调优)
- 多语言文本规范化处理
-
数据标注:
- 设计RLHF标注规范(如何定义"有帮助"的回答?)
- 开发众包质检工具(识别偷懒的标注员)
最近在做一个有趣的项目:用7B模型自动生成训练13B模型的数据,正在验证这种"模型自举"方案的效果。
2.5 评估工程师:大模型的"驾考官"
评估岗正在经历从人工测试到自动化评测的转变:
-
基准测试:
- 设计领域特定的评估指标(比如法律条款的覆盖度)
- 构建对抗性测试案例(如何"骗"过模型?)
-
安全评估:
- 红队测试:系统化的Prompt注入攻击
- 偏见检测:构建敏感词词库
-
用户体验:
- 设计A/B测试方案(响应速度vs回答质量)
- 分析用户交互日志(发现80%的用户会修改默认提示词)
这个岗位特别适合细心且具备统计学基础的同学,我们最近发现很多语言学背景的候选人表现出色。
3. 岗位选择与学习路线建议
3.1 能力匹配度自测表
| 岗位类型 | 数学要求 | 编程要求 | 论文要求 | 工程经验 | 适合背景 |
|---|---|---|---|---|---|
| 基座模型理论派 | ★★★★★ | ★★★☆☆ | ★★★★★ | ★★☆☆☆ | 理论计算机科学、数学系 |
| 基座模型工程派 | ★★★☆☆ | ★★★★★ | ★★★☆☆ | ★★★★★ | 分布式系统、高性能计算 |
| 应用算法 | ★★★☆☆ | ★★★★☆ | ★★☆☆☆ | ★★★★☆ | 传统算法岗转行 |
| 开发工程师 | ★★☆☆☆ | ★★★★★ | ☆☆☆☆☆ | ★★★★★ | Web后端开发转行 |
| AI Infra | ★★★★☆ | ★★★★★ | ★★★☆☆ | ★★★★★ | 系统软件、编译器方向 |
| 数据工程师 | ★★☆☆☆ | ★★★☆☆ | ☆☆☆☆☆ | ★★★☆☆ | 数据分析、NLP数据处理 |
| 评估工程师 | ★★★☆☆ | ★★☆☆☆ | ★☆☆☆☆ | ★★☆☆☆ | 语言学、心理学背景 |
3.2 转型策略与资源推荐
对于不同背景的求职者,我建议的突破路径:
计算机科班生:
- 先通过《动手学深度学习》掌握基础
- 用HuggingFace Transformers复现经典论文
- 参与Kaggle LLM相关比赛(如Feedback Prize)
- 在个人博客记录学习过程(面试官真的会看)
非科班转行者:
- 从LangChain入门应用开发
- 在GitHub上贡献文档翻译
- 用Gradio快速搭建Demo
- 参加AI Hackathon积累项目经验
重点资源推荐:
- 理论方向:《Transformers for Machine Learning》
- 工程方向:《Deep Learning Systems》课程
- 应用方向:LangChain官方文档+AI小镇项目
4. 行业趋势与职业发展洞察
4.1 技术融合带来的岗位演变
我们发现三个明显趋势:
- 全栈化:算法工程师开始写Dockerfile,开发人员要懂Prompt Engineering
- 工具平民化:AutoGPT降低开发门槛,但提高了系统设计复杂度
- 评估标准化:MLCommons正在建立大模型评测规范
最近面试时,我会特别关注候选人的"技术广度"。上周遇到一位同学,既能用PyTorch实现LoRA,又能用React搭建管理界面,这种复合型人才特别抢手。
4.2 薪资水平与职业路径
根据2024年最新调研数据(样本量200+):
| 岗位 | 初级(0-2年) | 中级(3-5年) | 高级(5年+) |
|---|---|---|---|
| 基座模型算法 | 40-60W | 70-100W | 120W+ |
| 应用算法 | 30-50W | 50-80W | 90-120W |
| AI Infra | 35-55W | 60-90W | 100-150W |
| 大模型开发 | 25-40W | 45-70W | 80-100W |
职业发展通常有两种路径:
- 专家路线:在特定领域深耕(如成为MoE架构专家)
- 管理路线:带领AI产品团队(需要补充商业知识)
4.3 给新人的特别建议
- 不要过度追求"热门方向":Agent确实火爆,但基础的数据处理能力才是长期竞争力
- 保持代码输出:GitHub上200行有价值的代码胜过空洞的项目描述
- 建立技术判断力:学会区分技术噱头(如某些Chain-of-Thought变体)和真正创新
- 关注开源社区:EleutherAI、OpenBMB等组织的Slack频道是获取前沿信息的绝佳渠道
最近在review简历时发现一个有趣现象:拥有个人技术博客的候选人,通过率比其他候选人高40%。这反映出在这个快速发展的领域,持续学习和输出能力变得愈发重要。