从微软高管到AI创业者：姜大昕的AGI探索之路

Aelius Censorius

1. 从微软高管到AI创业者的转型之路

姜大昕的职业生涯堪称一部典型的"技术人成长史"。这位中国科学技术大学9311班的毕业生，在1998年获得学士学位后，远赴美国纽约州立大学布法罗分校攻读计算机科学博士学位。这段学术经历为他奠定了坚实的技术基础，特别是在数据挖掘和自然语言处理(NLP)领域。博士毕业后，他选择在新加坡南洋理工大学担任助理教授，期间发表了近200篇学术论文，并获得ACM SIGKDD最佳应用论文奖。

2007年，姜大昕做出了人生中第一个重要转折——加入微软亚洲研究院任首席研究员。在微软的16年间，他几乎参与了所有核心产品的自然语言能力建设：从搜索引擎Bing的排序算法，到智能语音助手Cortana的对话系统；从微软云Azure的AI服务，到Office全家桶的智能写作功能。这段经历让他完成了从纯学术研究者到产品技术负责人的蜕变。

在微软内部，姜大昕以"能把技术变成产品"而闻名。他常说："不要被过去的一些认知所局限，空杯心态、仰望星空。"这种开放思维让他在大公司环境中依然保持创新活力。

2022年底ChatGPT的横空出世，成为姜大昕职业生涯的第二个关键转折点。作为NLP领域的资深专家，他敏锐意识到这项技术将彻底改变人机交互方式。当他向微软高层提交10页技术文件建议自研大模型未果后，这位"微软老兵"做出了令人意外的决定——放弃稳定的高管职位，投身创业大潮。

2. 阶跃星辰的创立与技术路线

2023年4月，姜大昕在上海创立阶跃星辰(StepFun)。公司名称源自神经网络中的"阶跃函数"(Step Function)——这个最简单的激活函数象征着AI发展需要一步步向上攀登。与当时国内"百模大战"的喧嚣不同，姜大昕选择了"闭馆研发"模式，带领团队埋头苦干。

在技术路线上，姜大昕为阶跃星辰规划了一条清晰的AGI发展路径：

单模态基础：先专注于语言模型的研发
多模态扩展：加入视觉、语音等感知能力
统一架构：实现多模态理解和生成的统一框架
世界模型：构建对物理世界的认知和理解
AGI实现：最终达成通用人工智能目标

这种循序渐进的技术演进策略，既考虑了当前技术可行性，又为未来发展预留了空间。姜大昕特别强调："如果你只想让模型通过图灵测试，那大语言足够；但如果你认为它要与人的智慧相提并论，那就一定要有视觉、感知、空间理解。"

3. 核心团队构建与人才战略

创业公司的成功很大程度上取决于团队质量。姜大昕深谙此道，他精心打造了一个"铁三角"核心团队：

算法端由他亲自坐镇，凭借在NLP领域20余年的积累，为技术方向把关。

数据端邀请到了微软前同事焦斌星加盟。焦斌星在搜索领域有丰富经验，他的加入为阶跃星辰带来了宝贵的数据处理能力。

系统端则招募了前字节跳动AI Infra负责人朱亦博。这位技术专家曾两次主导万卡集群建设，解决了大规模分布式训练的难题。

2026年1月，旷视联合创始人印奇以董事长身份加入，进一步强化了团队在计算机视觉和硬件结合方面的能力。这个"1+3"的核心团队组合，完美覆盖了大模型创业所需的关键技术领域。

在人才招聘上，姜大昕展现出独特的说服力。当朱亦博质疑"万卡实在是没挑战"时，姜大昕仅用"我们要搞AGI"四个字就打动了对方。这种对技术终极目标的纯粹追求，成为阶跃星辰吸引顶尖人才的最大磁石。

4. 技术研发进展与创新突破

阶跃星辰的技术发展可以用"快速迭代、持续突破"来概括：

2023年7月：开始训练首个大模型
2023年9月：发布千亿参数语言模型Step-1，综合性能超过GPT-3.5
2023年11月：推出千亿参数多模态模型Step-1V
2024年3月：发布万亿参数语言模型Step-2预览版，成为国内首家达到万亿规模的初创公司

这些成果的取得，离不开姜大昕团队在以下几个关键技术的创新：

分布式训练优化：通过改进并行策略和通信机制，将万卡集群的训练效率提升40%
多模态对齐：提出创新的跨模态注意力机制，显著提升图文理解的一致性
推理加速：开发专属的模型压缩和量化技术，使推理速度提升3倍以上
数据质量管控：建立严格的数据清洗和标注流程，确保训练数据的高质量

值得一提的是，阶跃星辰在模型架构上并未简单跟随Transformer主流，而是尝试融入更多创新设计。例如在Step-2中引入的"动态稀疏注意力"机制，既保持了全局建模能力，又大幅降低了计算开销。

5. 商业化落地与实践应用

技术理想主义需要商业现实来支撑。姜大昕很清楚："技术不是护城河，技术只能给你一个窗口期。"因此，阶跃星辰采取了"端侧突围"的商业化策略：

智能手机领域：已与OPPO、荣耀、中兴等国内60%头部品牌达成合作，模型装机量超过4200万台。这些合作主要聚焦于：

智能输入法预测
相册场景识别
语音助手增强
个性化推荐系统

智能汽车领域：2025年7月与吉利、千里科技联合发布AgentOS智能座舱系统，主要功能包括：

全场景语音交互
驾驶行为分析
多模态车内感知
个性化服务推荐

2026年目标是实现模型上车100万辆，这将为阶跃星辰带来稳定的现金流和宝贵的数据反馈。

在商业模式上，公司主要采用"技术授权+效果付费"的双轨制：

基础技术授权费
按调用量或效果付费
定制化开发服务
联合产品分成

这种灵活的模式既保证了短期收入，又为长期合作奠定了基础。2025年，阶跃星辰收入达到8.7亿元，接近10亿元的年度目标。

6. 行业影响与竞争格局

阶跃星辰的崛起深刻改变了中国AI大模型领域的竞争格局。从最初的"百模大战"，到现在的"AI四小强"（阶跃星辰、DeepSeek、智谱、MiniMax），行业已经完成第一轮洗牌。

姜大昕对行业竞争有独到见解："大模型不是赢者通吃的市场，未来会有3-5家主要玩家共存。"他认为差异化竞争的关键在于：

垂直领域深耕
多模态能力
端侧部署优势
商业化落地速度

与国外巨头相比，阶跃星辰的优势在于：

更理解中文语言特性和中国文化语境
国内数据获取和合规优势
本地化服务响应速度
特定场景的定制化能力

但姜大昕也清醒认识到与国际领先水平的差距："我们与GPT-4之间还有距离，但正在快速追赶。"这种务实态度反而赢得了业界的尊重。

7. 未来展望与AGI之路

面向未来，阶跃星辰已经规划了清晰的技术路线图：

短期（1-2年）：

完善万亿参数模型
拓展多模态能力
优化推理效率
加强安全对齐

中期（3-5年）：

探索十万亿参数规模
实现多模态统一架构
构建初步世界模型
推进具身智能研究

长期（5年以上）：

向AGI目标迈进
探索新型计算范式
研究人机协同机制
确保AI安全可控

姜大昕对AGI的实现路径有深刻思考："Scaling Law只是必要条件，我们还需要在认知架构、世界模型、推理能力等方面取得突破。"他特别强调多模态的重要性，认为单纯的文本模型永远无法达到真正的智能。

在资金层面，阶跃星辰于2026年1月完成超50亿元B+轮融资，创下国内大模型领域近一年的单笔融资纪录。这些资金将主要用于：

算力基础设施扩建
人才引进与培养
核心技术研发
商业化落地推进

8. 创业心得与领导哲学

作为从大公司高管成功转型的创业者，姜大昕积累了许多宝贵经验：

关于时机选择：
"世界上每天刮很多风，但这个风刮到你家门口，一辈子就那么一两次。不用顾虑，风来的时候你就上车，先上车再说。"

关于创业心态：
"我们从来没说要做一个小公司，我们就是奔着AGI去的，不然我们这些人聚在一起干嘛呢？"

关于技术管理：
"在大公司，个人意志要让位于公司战略；在创业公司，你必须自己定义方向并坚持走下去。"

关于团队建设：
"找那些和你一样对技术有纯粹热情的人，而不是只看重短期利益的人。"

关于竞争策略：
"与其在红海中厮杀，不如开辟自己的蓝海。对我们来说，端侧和多模态就是那片蓝海。"

姜大昕的领导风格融合了技术理想主义与商业现实主义。一方面，他对AGI有着近乎执着的追求；另一方面，他又非常注重产品的实际价值和商业可行性。这种平衡能力，正是阶跃星辰能够在激烈竞争中脱颖而出的关键。

9. 对中国AI产业的影响与启示

姜大昕和阶跃星辰的崛起，为中国AI产业发展提供了多个重要启示：

技术创新方面：

证明中国团队有能力研发世界级大模型
展示了一条差异化技术路线
验证了"闭馆研发"模式的有效性

产业发展方面：

推动形成健康竞争格局
加速技术商业化进程
促进产学研深度融合

人才培养方面：

吸引海外顶尖人才回流
培养本土AI人才
建立高水平研发团队

生态建设方面：

带动上下游产业链发展
促进技术标准制定
推动行业应用落地

姜大昕经常强调："所有不能闭环的辉煌都是阶段性的。"这句话不仅适用于企业，也适用于整个AI产业。只有当技术创新、商业应用和生态建设形成良性循环，中国AI才能真正实现可持续发展。

从微软高管到AI创业者，姜大昕的转型故事展现了一位技术领袖的远见与魄力。在AGI的长征路上，他和阶跃星辰还将面临更多挑战，但正如公司Logo所象征的——像阶跃函数一样，一级一级，向上攀登。这条路上或许充满未知，但正是这种探索未知的勇气，推动着人工智能技术不断向前发展。

已经到底了哦

精选内容

1 AI论文写作工具：从选题到格式的全流程优化 2 OpenClaw智能助手模型优化技术与实践 3 大模型长文本失忆与RoPE位置编码优化解析 4 大模型任务执行：从Function Calling到多智能体协作 5 智能体职业教育的现状、挑战与实施路径 6 YOLO实例分割实战：从训练到部署全流程解析 7 LangChain Chain链原理与应用实战解析 8 BGE v1.5与BGE-m3嵌入模型对比与RAG知识库选型指南 9 AI时代代码审查的变革与实践 10 自动驾驶系统三层架构设计与实现

最新内容

AI论文写作工具测评与本科生学术写作指南

学术写作是本科生面临的重要挑战，涉及选题、文献综述、逻辑构建等多个技术环节。随着自然语言处理技术的发展，AI写作辅助工具通过智能生成、格式检查和查重优化等功能，显著提升了写作效率和质量。这些工具基于深度学习算法，能够理解学术语境并生成符合规范的内容，特别适合计算机科学、经济学等学科的研究场景。在实际应用中，千笔AI等工具展现出优秀的内容生成能力，而Grammarly则擅长英文论文润色。合理搭配使用这些工具，可以系统解决从开题到答辩的全流程需求，是提升学术生产力的有效方案。

知识图谱可视化技术解析与应用实践

知识图谱可视化是解决大数据时代信息过载问题的关键技术，通过将抽象的三元组数据转化为直观的图形界面，显著提升认知效率。其核心技术原理包括图数据库集成、WebGL加速渲染和智能布局算法，在金融风控、智能客服等领域具有重要应用价值。针对大规模图谱的性能挑战，动态加载、LOD控制和多线程计算等优化策略能有效提升渲染效率。本文以qKnow架构为例，深入解析了知识图谱可视化在京东等企业的成功实践，特别是其创新的四大视图模式和WebGL优化方案，为相关领域的技术选型提供参考。

分布式训练核心技术解析与MindSpore实践

分布式训练是解决大模型显存不足和计算效率问题的关键技术，其核心原理是通过多设备协同计算实现模型参数的并行处理。在深度学习领域，数据并行和模型并行是两种主流策略，前者通过拆分训练数据加速处理，后者则分割模型结构以突破显存限制。以GPT-3等千亿参数模型为例，分布式技术使其训练成为可能。实际应用中，混合精度训练、梯度检查点等技术可显著优化显存使用，而通信融合、计算重叠等方法则能提升计算效率。MindSpore框架通过自动并行功能简化了分布式训练实现，支持数据并行、张量并行和流水线并行的灵活组合，为NLP大模型等场景提供高效解决方案。

LangChain Chain链实战：构建AI论文写作流水线

在自然语言处理领域，数据处理流水线是实现复杂AI应用的核心架构。LangChain框架通过Chain链机制，将输入处理、模型推理和输出生成等环节模块化，形成可组合的工作流。这种设计不仅提升了开发效率，还增强了系统的可观测性和可维护性。技术实现上，Runnable系列工具（如RunnablePassthrough、RunnableParallel）提供了灵活的链式编程接口，配合Prompt工程可以构建各类内容生成系统。典型应用场景包括论文写作、商业报告生成等需要多步骤处理的NLP任务，其中AI论文写作流水线展示了如何通过Chain链整合大纲生成、素材检索和内容合成等环节。

基于深度学习的印刷体字符识别技术实践

OCR（光学字符识别）作为计算机视觉的核心技术，通过模拟人类阅读能力实现图像到文本的转换。其技术原理主要依赖卷积神经网络（CNN）自动提取字符特征，相比传统基于模板匹配的方法具有更强的泛化能力。在工程实践中，结合OpenCV进行图像预处理（灰度化、二值化、形态学操作）和TensorFlow/PyTorch框架构建深度学习模型，可有效解决快递单号识别、银行票据处理等场景中的字符识别需求。典型技术方案采用改进版LeNet或ResNet架构，通过Batch Normalization和Dropout等技巧优化模型性能。当前主流方案在EMNIST等标准数据集上准确率可达99%以上，其中Python因其丰富的深度学习生态成为首选开发语言。

大语言模型监督式微调(SFT)实战指南

监督式微调(SFT)是大语言模型(LLM)适应特定任务的核心技术，通过在有标注数据上继续训练，使模型掌握领域知识或特定技能。其原理是利用预训练模型的基础能力，通过调整模型参数来优化特定任务的性能表现。在工程实践中，SFT能显著提升模型在对话生成、文本摘要等场景的效果。本文以Human-Like-DPO数据集和SmolLM2-135M-Instruct模型为例，详细解析了数据处理、模型训练和生成测试的全流程，特别介绍了如何通过DynamicCache优化生成效率，以及处理显存不足等常见问题的实用技巧。

LQR控制在自动驾驶路径跟踪中的实践与优化

线性二次调节器(LQR)是一种经典的最优控制算法，通过最小化状态误差和控制输入的二次代价函数来设计控制器。其核心原理是求解Riccati方程得到最优反馈增益矩阵，能够系统性地处理多变量系统的控制问题。在自动驾驶领域，LQR特别适用于车辆路径跟踪控制，相比传统PID方法能更好地协调横向误差、航向误差等多个状态量。基于动力学模型的LQR控制器通过合理设计权重矩阵，可以在高速场景下实现稳定精确的路径跟踪，典型应用包括弯道保持、换道 manoeuvre 等场景。工程实践中需要处理模型失配、执行器约束等挑战，常采用参数辨识、鲁棒设计等技术提升适应性。随着自动驾驶技术的发展，LQR与模型预测控制(MPC)的结合以及时变参数设计成为优化方向。

离线语音唤醒引擎Porcupine在智能家居中的应用实践

语音唤醒技术作为人机交互的重要入口，其核心原理是通过声学模型实时检测特定关键词。传统云端方案存在网络延迟和隐私隐患，而边缘计算技术将处理流程下沉到本地设备，显著提升响应速度和数据安全性。Porcupine作为轻量级离线语音唤醒引擎，支持在树莓派等嵌入式设备上实现毫秒级响应，典型应用场景包括智能家居、医疗监护等隐私敏感领域。通过调整唤醒词音节结构和灵敏度参数，可平衡识别准确率与误触发率，实测显示在50dB噪声环境下仍能保持92%以上的唤醒成功率。该方案与Home Assistant等智能家居平台的集成，为设备控制提供了更安全可靠的语音交互方案。

AI论文写作工具测评与自考论文写作指南

学术写作是科研工作者的基础技能，随着AI技术的发展，智能写作工具正逐步改变传统论文撰写方式。这些工具基于自然语言处理和机器学习算法，能够辅助完成从选题构思到格式规范的全流程。在自考论文写作场景中，AI工具尤其能解决时间紧张、资料匮乏等痛点。通过实测8款主流工具发现，千笔AI在功能完整性和专业性方面表现突出，而Grammarly则是英文论文写作的必备利器。合理使用这些工具可以提升3-5倍写作效率，但需注意AI生成内容需要经过深度加工以避免学术不端。

级联延迟反馈建模：解决数字营销转化归因难题

在机器学习与广告技术领域，延迟反馈建模是处理用户行为时间差的核心技术。其原理是通过时间序列分析区分即时响应与延迟转化，采用动态时间窗口和分层建模解决传统固定窗口的归因偏差。该技术能显著提升转化预测准确率，特别适用于电商、在线教育等存在长决策周期的场景。阿里妈妈提出的级联延迟反馈框架创新性地结合LSTM时序建模与生存分析，在淘宝广告系统中实现58.7%的长周期转化捕获率提升。通过自适应行业基准延迟和用户活跃度系数，该方案有效解决了母婴、家居等长决策周期品类的归因难题。