1. 从零开始的大模型自学之路
去年4月,当我第一次听说"大语言模型"这个词时,就像个刚进城的乡下人,连LLM三个字母代表什么都不清楚。作为一个非算法科班出身的工程方向程序员,我决定从大模型应用这个相对友好的入口切入。这个选择后来被证明是明智的——就像学游泳不该直接从深水区开始,技术学习也需要找到适合自己的深度。
我的学习计划很简单但严格:每天下班后雷打不动地投入2-3小时。前三个月主要攻克基础知识,把《深度学习入门》和《自然语言处理综论》这两本书翻到起毛边。同时保持每天2道Leetcode的习惯,重点不是解难题,而是培养算法思维——这就像健身时做基础动作,看似简单,却是后续发展的根基。
关键心得:学习初期最忌贪多求快。我把大模型知识体系拆解为"基础理论-工程实践-算法原理"三个层次,像搭积木一样逐层构建。这种结构化学习方法让零散的知识点形成了有机整体。
2. 面试踩坑与策略调整
第一次面试来得比预期早。去年10月,我抱着试水的心态投了几份简历,结果被现实狠狠教育——明明应聘的是应用岗,面试官却总抛出算法问题。有个问题至今记忆犹新:"请解释Transformer中LayerNorm的位置为什么在残差连接之后?"当时我只能支支吾吾地应付过去。
这次教训让我立即调整了学习路线。在保持工程能力训练的同时,我增加了:
- 每周3次算法专题学习(重点理解不深究数学推导)
- 在个人项目中加入模型微调实战
- 整理《大模型面试高频50问》文档
这种"工程为主,算法为辅"的策略很快见效。到今年2月再面试时,当被问到"如何优化RAG系统的检索效率"这类复合型问题时,我能从工程实现谈到算法原理,再引申到业务场景考量,回答变得游刃有余。
3. 七家公司的offer全解析
3.1 京东算法岗:意料之外的橄榄枝
这个offer最让我意外。面试官明显更看重我的工程背景和学习能力,算法问题都停留在概念层面。他们提供的"算法工程师"岗位实际上更偏向工程实现,薪资给到35k×16薪,还特别允许我延期入职补足算法知识。这让我明白:大厂有时更看重候选人的成长性而非即时战力。
3.2 网龙的灵活培养机制
这家游戏公司的特色是"算法/工程双通道"培养。面试官直言:"我们不需要你马上成为专家,但需要你保持持续学习的状态。"他们提供的20k×14薪不算高,但入职后可自由选择发展方向,适合想要探索可能性的转行者。
3.3 夸克千问的工程岗教训
这次面试给我上了重要一课:大厂岗位分工极其明确。当我试图展示新学的Infra知识时,面试官直接打断:"我们只需要你精通Flask和FastAPI的模型服务化。"最终给出的25k×15薪也低于预期。这个案例印证了:过度准备有时反而会分散核心竞争力。
4. 大模型求职的黄金法则
4.1 岗位定位的"三阶决策法"
- 能力评估:用1周时间客观评估自己的数学基础和工程经验
- 市场调研:在招聘网站统计目标岗位的技能要求频次
- 路径选择:
- 工程背景→应用开发岗(占当前需求的60%)
- 数学基础好→算法岗(要求TOP10%的候选人)
- 校招生→建议双轨并行
4.2 项目打造的"MVP原则"
我的第一个项目简单到不好意思说——用Flask包装ChatGPT的API做成智能客服demo。但关键是我持续迭代:
- v1.0:基础问答功能
- v2.0:加入RAG支持PDF问答
- v3.0:实现简单的微调功能
面试官最欣赏的就是这种可见的成长轨迹。
5. 资源利用的降本增效
与其盲目收集资料,我更推荐"3×3学习法":
-
3本核心书籍:
- 《深入理解Transformer架构》
- 《大模型工程实践》
- 《Prompt Engineering实战》
-
3个实战项目:
- 基于LangChain的文档问答系统
- 使用LoRA进行模型微调
- 搭建多Agent协作系统
-
3种学习渠道:
- Hugging Face官方课程(免费)
- 吴恩达《ChatGPT提示工程》(免费)
- 自己复现论文代码(最佳实践)
6. 面试准备的"三明治策略"
我的面试应答框架分为三层:
- 技术层:直接回答问题要点
- 例:"Agent系统的核心是..."
- 业务层:关联实际应用场景
- 例:"在电商客服中这个技术可以..."
- 演进层:展现技术前瞻性
- 例:"未来结合多模态可能实现..."
这种结构化表达能让面试官看到你的技术深度和业务敏感度。
7. 给转行者的特别建议
7.1 时间管理的"番茄工作法改良版"
我把每晚的学习拆分为:
- 45分钟专注学习(手机勿扰模式)
- 15分钟整理笔记(Markdown格式)
- 30分钟代码实践
这种"学-思-做"循环比单纯堆砌时间更高效。
7.2 知识管理的"双向链接笔记"
用Obsidian建立知识图谱,例如:
code复制[[Attention机制]] 是 [[Transformer]] 的核心组件 ->
应用于 [[文本生成]] 时需要注意 [[长程依赖]] 问题
这种关联记忆法让碎片知识形成网络。
八个月的自学之旅给我的最大启示是:大模型领域没有天才神话,只有持续正确的努力。当我拿到第一个offer时,笔记本里已经积累了:
- 327篇论文笔记
- 84个代码实验
- 19个项目迭代版本
这些扎实的足迹,才是突破转行壁垒的真正利器。