AlphaQuanter是一个基于强化学习的端到端股票交易框架,其核心创新在于将工具调用与信息获取过程建模为可学习的动作空间。这个框架完美结合了大语言模型(LLM)的推理能力和强化学习(RL)的决策优化优势,在部分可观测的市场环境下实现了主动信息获取与可解释决策。
关键突破:传统量化交易系统往往将信息获取与交易决策割裂处理,而AlphaQuanter通过统一的MDP框架将这两个环节紧密耦合,使智能体能够根据当前信息状态动态调整其信息需求。
框架采用单智能体架构,相比多智能体系统具有三大显著优势:
AlphaQuanter将交易决策过程形式化为工具增强的马尔可夫决策过程(Tool-Augmented MDP),定义为四元组⟨S, A, T , R⟩:
状态空间S:包含三部分信息
动作空间A:分为两类动作
状态转移T:
python复制def transition(state, action):
if action in Aq:
new_history = state.query_history.append(action)
new_results = state.query_results.update(get_tool_result(action))
return (state.initial_context, new_history, new_results)
else: # 决策动作终止episode
return TERMINAL
奖励函数R:复合奖励设计(详见4.2节)
框架采用ReAct式推理架构,每个决策周期包含四个阶段:
mermaid复制graph TD
S0[初始状态] --> P0[生成计划]
P0 --> A0{是否缺信息?}
A0 -->|是| Aq[调用工具]
Aq --> R[推理更新]
R --> A0
A0 -->|否| Ad[输出决策]
框架集成了四类数据源工具,智能体需要学会在适当的时候调用合适的工具:
| 工具类别 | 典型数据 | 调用频率 | 信息时效性 |
|---|---|---|---|
| 市场数据 | K线、成交量、技术指标 | 高 | 实时 |
| 基本面数据 | 财报、股东交易、股息 | 低 | 季度 |
| 情感分析 | 新闻舆情、社交媒体情绪 | 中 | 日频 |
| 宏观经济指标 | CPI、利率、商品价格 | 中 | 月频 |
实验发现7B模型学会了专家级的工具使用启发式:
采用平滑的未来收益作为监督信号:
code复制r_t = Σ[ω_h * (p_{t+h}/p_t - 1)], h=1..H
其中ω_h为指数衰减权重,H=5个交易日。根据r_t的阈值θ划分市场状态,设计非对称奖励矩阵:
| 市场状态 | BUY | SELL | HOLD |
|---|---|---|---|
| 强烈看涨(r>θ) | +1.0 | -1.0 | -0.75 |
| 强烈看跌(r<-θ) | -1.0 | +1.0 | -0.75 |
| 震荡( | r | ≤θ) | -0.5 |
最终奖励:R = 2*R_result + R_format + R_tool
使用Qwen2.5-7B作为基座模型,采用GRPO算法进行策略优化:
yaml复制training_params:
batch_size: 32
seq_length: 2048
learning_rate: 5e-6
gamma: 0.99
lambda: 0.95
entropy_coef: 0.01
max_grad_norm: 1.0
rollout_steps: 300
关键技巧:
在回测系统中内置了三重风控机制:
头寸管理:
python复制def calculate_position(cash, price):
return floor(0.95 * cash / price) # 保留5%现金缓冲
止损规则:
交易成本建模:
在2025年1-6月的测试集上,AlphaQuanter-7B取得:
| 指标 | 数值 | 相对GPT-4o提升 |
|---|---|---|
| 年化收益率 | 34.94% | +18.45% |
| 夏普比率 | 0.65 | +0.15 |
| 最大回撤 | 24.93% | -3.34% |
个股表现差异:
2025-03-14 TSLA交易记录:
code复制[初始状态] 股票=TSLA, 日期=2025-03-14
[计划] 检查技术面超卖迹象与马斯克相关新闻
[工具调用] 查询RSI(14)=28.6(超卖)
[工具调用] 查询最近3天负面新闻计数=7(偏高)
[推理] 尽管技术面超卖,但舆情风险仍在
[决策] HOLD(实际次日涨+3.2%,避免错误买入)
[奖励] +1.0(符合震荡市HOLD最优策略)
主要错误类型:
改进方向:
| 组件 | 最低配置 | 推荐配置 |
|---|---|---|
| GPU | RTX 4090 (24GB) | A100 80GB |
| 内存 | 64GB DDR4 | 128GB DDR5 |
| 存储 | 1TB NVMe | 2TB NVMe RAID0 |
| 网络延迟 | <50ms | <10ms(托管机房) |
python复制def check_drift(history):
recent_actions = history[-100:]
hold_ratio = recent_actions.count('HOLD')/100
return hold_ratio > 0.8 # 异常保守信号
重要发现:7B模型在训练后期展现出元学习能力,能够根据市场波动率自动调整工具调用频率——高波动期增加技术指标查询,低波动期侧重基本面分析。这种涌现行为未在训练目标中显式指定。