1. 团队背景与业务方向
算能科技作为国内领先的AI计算平台服务商,其工具链团队承载着公司核心技术栈的研发与优化工作。我们团队目前由23名来自国内外顶尖高校的工程师组成,平均行业经验7年以上,核心成员曾主导过多个国际开源项目。当前主要聚焦三大方向:
- 深度学习编译器开发(重点优化TVM、MLIR生态)
- 分布式训练框架性能调优(支持千卡级集群高效训练)
- 端侧推理工具链构建(覆盖ARM/XPU/RISC-V等多架构)
去年我们开源的自动混合精度工具包AMP-Optimizer在MLPerf基准测试中帮助客户模型获得23%的推理速度提升,这个案例很能体现团队的技术价值。
2. 核心岗位需求解析
2.1 编译器研发工程师(急聘)
这个岗位需要深入参与我们的LLVM后端开发工作,具体包括:
- 设计并实现针对专用AI芯片的指令调度算法
- 开发图优化pass提升算子融合效率
- 构建基于MLIR的中间表示转换管道
技术要求栈:
- 熟练掌握C++17/20现代特性(concept/range等)
- 有LLVM/MLIR实际开发经验(至少参与过1个完整backend项目)
- 熟悉计算机体系结构(尤其内存层次优化)
加分项:
- 贡献过TVM/TensorRT等开源项目
- 发表过PLDI/CGO等顶会论文
2.2 框架开发工程师
主要负责训练框架的分布式能力建设:
- 实现AllReduce算法拓扑优化(支持3D并行)
- 开发梯度压缩通信原语(1-bit/2-bit量化)
- 构建弹性训练容错机制(checkpoint自动恢复)
必备技能:
- 精通PyTorch/TensorFlow底层架构
- 有NCCL/RDMA调优经验
- 掌握CUDA编程(能写kernel级优化)
典型工作场景举例:上周我们刚为某自动驾驶客户实现了梯度通信量减少78%的定制压缩策略,这类实战需求会持续出现。
3. 团队技术栈全景
3.1 核心工具链组成
| 组件类别 | 当前技术选型 | 演进路线 |
|---|---|---|
| 编译工具链 | LLVM15+自研pass | 逐步迁移到MLIR体系 |
| 训练框架 | PyTorch2.0+DeepSpeed | 开发自有MOE扩展 |
| 推理运行时 | TensorRT-LLM+自研量化工具 | 支持动态稀疏化 |
| 性能分析工具 | NSight+Sys+自定义profiler | 构建全栈trace系统 |
3.2 典型开发环境
- 代码管理:GitLab CE + ReviewBoard
- 构建系统:Bazel + CMake Presets
- 测试框架:GoogleTest + pytest-benchmark
- 协作工具:Jira + Confluence(敏捷开发)
我们所有核心项目都要求达到85%以上的单元测试覆盖率,CI流水线包含静态分析、符号执行等质量门禁。
4. 候选人成长体系
4.1 技术晋升通道
采用双轨制发展路径:
- 专家路线:助理工程师→资深工程师→首席架构师(每级明确的技术产出要求)
- 管理路线:技术主管→部门总监(需带教2名以上新人)
每季度都有技术答辩机会,不设固定年限限制。去年有3位同事因突破性贡献实现跨级晋升。
4.2 学习资源支持
- 每年$3000技术书籍/课程预算
- 每周五下午的Tech Share(可分享前沿论文)
- 与NVIDIA/Intel等厂商的定向技术交流
- 参加顶级会议(包差旅+注册费)
最近半年团队在ASPLOS、PPoPP等会议发表5篇一作论文,鼓励深度技术探索。
5. 招聘流程与准备建议
5.1 面试环节说明
完整流程通常为4轮:
- 技术笔试(3道算法+系统设计题,72小时自由安排)
- 编码面试(现场实现编译器pass或框架扩展)
- 系统设计(讨论分布式训练方案优化)
- 综合评估(与CTO面谈技术规划)
特别注意:我们所有coding环节都提供互联网访问权限,鼓励查阅文档解决问题。
5.2 简历优化建议
根据筛选经验,通过率高的简历通常包含:
- 具体的技术指标(如"优化LLVM pass使ResNet50编译耗时降低40%")
- 开源项目链接(特别是带有代码审查记录的PR)
- 技术博客或论文成果(展示系统性思考)
避免罗列技术名词,要体现深度和实际产出。去年录取的候选人中,83%有持续更新的技术博客。
6. 工作模式与福利
6.1 研发协作方式
- 核心工作时间:10:00-16:00(弹性2小时)
- 周三为"无会议日"专注开发
- 每季度1周hackathon(自由组队攻关)
我们坚持PR不超过300行代码的规范,所有设计文档需要先写RFC再实现。
6.2 薪酬与福利
薪资构成:
- 基础薪资(对标一线大厂P7-P9)
- 项目奖金(按技术贡献分配)
- 股票期权(分4年归属)
特色福利:
- 深度学习服务器独占使用权(每人配备A100x8节点)
- 年度技术装备预算(15000元自主采购)
- 硅谷技术交流机会(符合条件者可外派)
去年团队平均加班时长仅每月8小时,我们相信高效工作比长时间耗着更重要。