1. 项目背景与核心价值
三年前我刚加入现在的AI平台团队时,应用商店还是个只有十几个基础模型的小功能模块。如今再看这个承载着数百个AI技能的入口,已经深刻理解了平台型产品的进化规律。这次复盘不仅是对过去三年技术架构升级的总结,更想通过应用商店这个"毛细血管",揭示AI平台发展的底层逻辑。
应用商店在AI平台中的角色很特殊——它既是开发者的变现通道,又是终端用户的能力入口。这种双重属性决定了其迭代过程必然伴随着平台定位的调整。我们经历过三次重大架构改造:从最初的静态技能列表,到支持动态加载的微服务架构,再到现在的技能编排引擎。每次升级都对应着平台战略的阶段性转变。
2. 技术架构演进路径
2.1 第一阶段:目录式商店(v1.0)
2019年上线的初代版本采用最简实现:
- 前端:React静态页面+基础搜索
- 后端:Spring Boot单体架构
- 数据层:MySQL单表存储技能元数据
这个阶段的核心矛盾是:
- 技能上线需要全站发布
- 计费系统耦合在业务代码中
- 用户行为数据采集缺失
我们当时用了一个取巧方案:通过GitHub Actions实现技能配置文件的自动化同步。虽然解决了发布问题,但埋下了技术债——配置文件越来越臃肿,最终单个YAML文件超过3000行。
2.2 第二阶段:服务化改造(v2.0)
2021年的架构升级重点解决扩展性问题:
- 引入Skill Gateway作为统一接入层
- 技能元数据迁移到MongoDB分片集群
- 独立计费服务采用Temporal工作流引擎
关键技术决策包括:
- 选择gRPC而非REST作为服务间通信协议(考虑性能与接口约束)
- 自研技能调度器替代Kubernetes原生方案(需要精细化的QoS控制)
- 采用契约测试保障服务兼容性(Pact框架的实际应用)
这个阶段最大的教训是:过早优化带来的复杂度。我们为技能编排设计了过于复杂的DSL,结果80%的技能只用到了基础流程控制功能。
2.3 第三阶段:智能编排(v3.0)
当前版本的核心创新点:
- 技能组合的自动化推荐(基于Graph Embedding)
- 运行时动态加载WASM模块
- 跨技能的状态管理方案
技术栈选型值得关注的细节:
- 放弃TensorFlow改用ONNX Runtime(推理延迟降低40%)
- 自主研发的WASM沙箱比Docker轻量80%
- 状态管理采用CRDT数据结构解决冲突
3. 平台定位的认知升级
3.1 从工具到生态的转变
早期我们将应用商店定位为"AI能力的App Store",但实际运营中发现两个关键差异:
- AI技能之间存在组合价值(不同于手机应用的独立性)
- 开发者需要持续调优模型(不同于一次性上架)
这促使我们构建了技能关系图谱,通过分析用户行为数据发现:65%的付费场景涉及多个技能串联使用。
3.2 Skill的重新定义
经过三年迭代,我们对Skill的认知经历了三个阶段:
- 初期:认为Skill是封装好的AI模型
- 中期:理解为带UI交互的微服务
- 现在:定义为可编排的认知单元
这个认知转变直接影响了技术设计。比如在v3.0中,每个Skill必须显式声明:
- 输入/输出的语义类型(而不仅是数据类型)
- 可组合的上下文条件
- 质量评估指标(QoE)
4. 关键问题与解决方案
4.1 技能发现的冷启动问题
早期采用人工运营推荐,效率低下。现采用三级解决方案:
- 基础匹配:基于Skill声明的能力标签
- 行为推荐:分析相似用户的使用模式
- 组合挖掘:通过频繁项集发现潜在关联
技术实现上有个巧妙设计:将用户操作序列转化为"技能句子",应用NLP领域的Skip-gram模型学习嵌入表示。
4.2 跨技能的状态管理
这是最复杂的技术挑战之一。我们的方案核心是:
- 全局状态树采用JSON Patch格式记录变更
- 冲突解决策略可逐字段配置
- 审计日志使用Merkle DAG存储
实际测试中发现:医疗类技能对状态一致性要求最高,为此我们专门实现了符合HIPAA规范的存储后端。
5. 经验总结与避坑指南
5.1 技术决策的三条原则
- 扩展性比性能更重要(但延迟敏感型服务除外)
- 显式声明优于隐式约定(特别是在接口设计时)
- 可观测性不是可选项(必须作为一等公民)
5.2 踩过最贵的坑
2022年的一次错误决策:为了追求架构"纯洁性",强制所有技能改用Protobuf定义接口。结果导致:
- 30%的开发者流失
- 技能上线速度下降50%
- 额外付出6个月迁移成本
教训:平台设计要考虑开发者体验的惯性,重大变更需要渐进式推进。
5.3 度量指标体系建设
建议监控这些核心指标:
- 技能发现效率(从搜索到使用的转化率)
- 组合使用深度(单次会话涉及的技能数)
- 开发者迭代速度(从提交到上线的平均时间)
我们构建的指标看板现在包含127个实时监控项,这是平台健康度的重要保障。
6. 未来演进方向
当前正在试验的几个创新点:
- 技能市场的P2P交易模式(基于区块链的凭证系统)
- 边缘计算场景下的技能分发
- 用LLM生成技能组合方案
一个有趣的发现:通过分析技能使用日志,我们发现用户实际需要的往往不是更多技能,而是更精准的技能组合推荐。这或许揭示了AI平台下一阶段的竞争焦点。