航天器追逃博弈中的EKF与ε-NE策略优化

顾培

1. 项目背景与核心问题

航天器末端追逃博弈是空间对抗领域的关键课题，其本质是研究追击方（如拦截卫星）与逃逸方（如目标卫星）在接近阶段的动态策略对抗。传统研究多基于完全信息假设，即双方完全知晓对方的动力学特性和策略空间。然而实际作战中，发动机参数、机动能力等关键信息往往存在不对称性，这正是"不完全信息"博弈的典型场景。

Epsilon纳什均衡（ε-NE）是经典纳什均衡的实用化扩展，允许策略存在可控的近似误差（ε）。这种松弛处理特别适合工程应用——我们不需要数学上的完美均衡，而是寻求计算复杂度与策略性能的合理折衷。本项目创新点在于将EKF（扩展卡尔曼滤波）参数估计与自适应博弈策略相结合，构建了一套完整的在线决策框架。

2. 系统建模与关键技术解析

2.1 动力学模型构建

采用相对运动坐标系下的C-W方程描述航天器相对动力学：

matlab复制function dx = CW_equation(t,x)
    % 克莱因-威尔克方程参数
    n = 0.00113; % 轨道角速度(rad/s)
    A = [0 0 0 1 0 0;
         0 0 0 0 1 0;
         0 0 0 0 0 1;
         3*n^2 0 0 0 2*n 0;
         0 0 0 -2*n 0 0;
         0 0 -n^2 0 0 0];
    dx = A*x;
end

该模型考虑了地球非球形引力摄动的主要J2项，通过状态向量x=[x,y,z,vx,vy,vz]'描述相对位置和速度。

2.2 不完全信息处理方案

对手的机动能力参数（如最大加速度）通过EKF实时估计：

matlab复制% EKF参数估计核心代码片段
[P_pred, x_pred] = ekf_predict(x_est, P_est, Q);
[K, x_est, P_est] = ekf_update(z, x_pred, P_pred, R);

创新性地将参数估计误差方差纳入ε-NE的计算过程，使得策略对估计不确定性具有鲁棒性。具体实现中，将估计参数的不确定性区间映射到博弈支付矩阵的扰动范围。

3. 自适应博弈策略实现

3.1 ε-NE求解算法

采用改进的Lemke-Howson算法求解双矩阵博弈的ε均衡：

matlab复制function [p1_strategy, p2_strategy] = lemke_howson(A, B, epsilon)
    % 支付矩阵A和B分别对应追逃双方
    % epsilon为允许的均衡偏离阈值
    ...(算法实现细节)
end

该算法通过互补旋转（complementary pivot）过程，将均衡求解转化为线性互补问题。相比传统纳什均衡求解，增加了ε容忍度的约束条件。

3.2 策略自适应机制

构建双层决策框架：

上层：基于当前估计参数的博弈矩阵生成候选策略集
下层：通过代价函数J=α·终端距离 + β·燃料消耗实时评估策略性能
反馈调节：根据策略执行效果动态调整EKF的过程噪声Q和观测噪声R

4. Matlab实现关键模块

4.1 主仿真循环结构

matlab复制for k = 1:sim_steps
    % 状态观测（带噪声）
    z = get_measurement(true_state); 
    
    % EKF参数估计
    [param_est, cov_est] = ekf_step(z);
    
    % 构建当前博弈矩阵
    [A, B] = build_game_matrix(param_est, cov_est);
    
    % ε-NE策略求解
    [u_pursuer, u_evader] = epsilon_NE_solver(A, B, epsilon);
    
    % 策略执行与状态更新
    true_state = dynamics_update(true_state, u_pursuer, u_evader);
end

4.2 可视化工具开发

实现三维动态轨迹显示和策略决策热力图：

matlab复制function plot_strategy_heatmap(A_matrix)
    % 绘制支付矩阵的策略选择概率分布
    imagesc(A_matrix);
    colorbar;
    xlabel('逃逸方策略');
    ylabel('追击方策略'); 
end