1. 曦望科技:从商汤大芯片部门到国产GPU领跑者的蜕变之路
2025年初春,当大多数AI芯片企业还在为训练算力厮杀时,一家名为曦望(Sunrise)的中国企业却以"百万token一分钱"的颠覆性宣言震撼了整个行业。这家脱胎于商汤科技大芯片部门的创业公司,在独立运营仅一年后就完成了约30亿元战略融资,并发布了专为大模型推理设计的第三代GPU芯片——启望S3。曦望董事长徐冰在接受专访时反复强调:"我们不是凭空冒出来的新手,而是经历过完整AI产业周期的实战派。"
这个由商汤核心芯片团队、AMD/英伟达系架构师和百度系产品专家组成的"特种部队",正在用十年产业沉淀重新定义AI推理芯片的竞争规则。他们放弃了对峰值算力的盲目追逐,转而将"每token成本"作为核心指标,试图通过架构级创新重构中国AI产业的损益表。本文将深度解析曦望的突围逻辑,拆解其"更懂AI的GPU"技术路线,并探讨国产芯片在推理时代可能建立的差异化优势。
2. 核心团队解析:芯片、产品与商业化的黄金三角
2.1 技术传承:从商汤大芯片到独立运营
曦望的核心竞争力首先体现在其"浸透产业"的创始团队上。董事长徐冰带领的这支队伍,完整经历了中国AI发展的三个关键阶段:
- 2012-2016年:参与商汤早期人脸识别算法开发,积累算法-芯片协同优化经验
- 2017-2020年:为自动驾驶业务设计专用加速架构,验证芯片在复杂场景的稳定性
- 2021-2025年:主导大模型训练推理系统搭建,形成对AI算力需求的精准把握
这种贯穿AI全生命周期的实战经验,使得曦望在芯片定义阶段就与学院派创业者形成显著差异。徐冰透露:"S3芯片的缓存层次结构设计,直接源于我们在商汤服务客户时发现的显存带宽瓶颈问题。"
2.2 联席CEO的"越湛越勇"组合
曦望独特的双CEO架构堪称芯片行业的创新尝试:
- 王勇(技术CEO):AMD/昆仑芯系资深架构师,主导设计过三款量产GPU。其团队创造的"动态精度调度"技术,能使芯片根据负载自动切换FP16/INT8计算模式,实测能耗比提升40%。
- 王湛(商业CEO):百度凤巢系统缔造者,擅长将技术转化为商业价值。他推动建立的"成本-性能-稳定性"三角评估模型,成为曦望产品定义的核心方法论。
这种"架构师+产品家"的组合,有效解决了芯片企业常见的技术与市场脱节问题。在S3研发过程中,王湛团队提供的客户需求热力图,直接影响了芯片内部计算单元的配比决策。
3. 技术路线选择:为什么All in推理GPU?
3.1 市场结构性变化的三大证据
徐冰将曦望锚定推理赛道的决策依据归纳为三个维度变化:
需求端变革(数据来源:德勤2026AI算力报告)
| 指标 | 2023年 | 2026年(预测) |
|---|---|---|
| 训练算力占比 | 70% | 34% |
| 推理算力占比 | 30% | 66% |
| 边缘推理设备出货量 | 1200万 | 5800万 |
场景复杂度跃迁
- 智能体响应延迟要求从秒级进入毫秒级
- 视频生成任务显存占用增长300%
- 物理仿真需要持续30分钟以上的稳定算力输出
成本结构颠覆
某头部AI公司2025年财报显示:
- 训练成本占总投入28%
- 推理成本占总投入72%
- 其中芯片采购占推理成本83%
3.2 与传统GPU的架构级差异
曦望S3芯片通过五项创新实现"专芯专用":
- 可分解张量核心:将传统GPU的固定尺寸矩阵单元拆分为可动态组合的小单元,处理小batch数据时利用率提升至85%
- 混合精度内存池:统一管理HBM和GDDR6显存,根据工作负载智能分配,带宽利用率达92%
- 异步计算流水线:允许同时执行多个低延迟推理任务,并发数达到竞品4倍
- 细粒度功耗门控:按10ms间隔动态调整电压频率,典型负载下功耗降低60%
- 硬件级SLA保障:内置QoS控制器确保关键任务不被中断,服务稳定性达99.99%
4. 实现"百万token一分钱"的技术路径
4.1 成本拆解与优化策略
要实现革命性的token成本目标,曦望在三个层面进行创新:
芯片级优化
- 采用12nm工艺而非更昂贵的5nm,通过架构创新弥补制程差距
- 用3D封装集成96MB SRAM作为缓存,减少80%的HBM访问
- 自研的Token压缩算法使数据传输量减少50%
系统级创新
- 开发分布式推理调度系统Orion,支持万卡级集群管理
- 实现模型参数的热迁移,故障切换时间<100ms
- 动态电压频率调整(DVFS)使整机柜功耗降低35%
算法协同
- 与商汤联合开发"渐进式解码"技术,减少30%计算量
- 量化工具链支持FP16到INT4的无精度损失转换
- 编译器自动优化计算图,提升15%执行效率
4.2 实测数据与行业影响
曦望公布的S3芯片实测数据显示:
- 处理175B参数模型时,每token能耗仅0.02焦耳
- 支持连续72小时高负载运行,性能波动<2%
- 在文本生成场景实现百万token成本0.008元
这将直接改变AI应用的商业模式。以客服机器人场景为例:
| 指标 | 传统方案 | 曦望方案 | 变化率 |
|---|---|---|---|
| 单次交互成本 | 0.15元 | 0.003元 | -98% |
| 日均处理量 | 10万次 | 500万次 | +4900% |
| 服务器投入 | 800万元 | 200万元 | -75% |
5. 生态构建与产业协同
5.1 三级合作网络布局
曦望采取"芯片+系统+生态"的立体化战略:
- 基础层:与杭钢共建绿色算力中心,利用余热回收系统使PUE降至1.08
- 中间层:和商汤共建模型优化实验室,已发布10个针对S3优化的主流模型
- 应用层:联合三一重工开发工业质检方案,将检测耗时从5秒缩短至0.3秒
5.2 差异化竞争策略
在国产GPU同质化竞争的背景下,曦望选择三条突围路径:
- 场景深挖:针对视频生成、科学计算等细分领域推出定制版固件
- 开放生态:开源编译器前端,吸引开发者共建工具链
- 成本革命:承诺每年token成本下降50%,建立价格护城河
某风投机构的分析报告指出:"曦望的估值溢价30%来自其产业生态壁垒,而非单纯技术优势。"
6. 挑战与应对:推理芯片的长期主义
尽管前景广阔,曦望仍面临诸多挑战:
- 软件生态薄弱:需持续投入开发CUDA替代方案
- 制程限制:在7nm以下工艺受限于国产化进度
- 客户习惯:改变开发者对通用GPU的依赖需要时间
徐冰的应对策略显露出老牌AI从业者的务实:"我们准备用三年时间,通过200个真实场景的打磨,让市场自然选择更经济的专用方案。在这个过程中,曦望只专注一个目标——让客户的推理成本每年都能腰斩。"
这种基于产业需求的渐进式创新,或许正是中国芯片企业突破"卡脖子"困境的可行路径。当被问及未来规划时,徐冰展示了一张写在餐巾纸上的公式:芯片价值=△客户收益/投入成本。这个看似简单的等式,或许揭示了曦望能在巨头林立的GPU战场中异军突起的根本原因。