1. 无人机竞速中的博弈论与模型预测控制
在高速无人机竞速领域,每毫秒的决策延迟都可能决定比赛胜负。传统单机路径规划方法已无法满足多机对抗场景的需求,这促使研究者将博弈论与模型预测控制(MPC)相结合。想象一下F1赛车手在弯道超车时的心理博弈——无人机竞速本质上就是这种动态策略互动在三维空间的数字化呈现。
当前主流方法存在明显的两极分化:基于博弈论的模型预测游戏(MPG)能生成考虑对手反应的高质量策略,但单次求解耗时可达60-2000ms;而传统MPC虽然响应迅速(约3ms),却假设对手行为固定不变。这种"策略质量vs实时性"的矛盾在时速超过10m/s的竞速场景中尤为突出。我们的实验数据显示,当无人机速度超过2m/s时,MPG的胜率会因计算延迟从100%骤降至不足30%。
2. 核心方法设计:学习型模型预测博弈(LMPG)
2.1 系统架构创新
LMPG的核心创新在于将耗时的博弈均衡计算转移到离线阶段。如图2所示,该系统包含三个关键组件:
- 观测编码器:将原始状态(位置、速度、赛道参考点等)转换为包含相对位置信息的特征向量。特别值得注意的是,我们将对手状态转换到自机体坐标系,这种ego-centric表示显著提升了策略的泛化能力。
- 神经网络策略:采用双层MLP结构,隐含层维度为256,使用SiLU激活函数。与常规端到端学习不同,我们在输出层后接入了可微分优化层,确保生成的策略满足动力学约束。
- 在线优化层:通过投影梯度法将网络输出修正为可行轨迹,处理约束时采用对数障碍函数,其形式为:
其中h(x)为约束函数,这种处理方式在保证实时性的同时维持了数值稳定性。\phi(x) = -\log(h(x))
2.2 训练方法论突破
训练过程采用对抗式自博弈框架(算法1),其关键创新点包括:
- 延迟注入:在50%的决策步骤中随机引入100-300ms延迟,模拟真实场景中的计算波动
- 噪声鲁棒性:在控制输入中加入高斯噪声(σ=0.2m/s²),增强策略的抗干扰能力
- 课程学习:从简单直线赛道开始训练,逐步过渡到复杂三维赛道,验证损失函数为:
其中γ=0.99为折扣因子,λ_{col}=10为碰撞惩罚系数\mathcal{L} = \mathbb{E}[\sum_{t=0}^T \gamma^t (J_t + \lambda_{col}I_{col})]
实践发现:在训练初期放宽动力学约束(如允许更大加速度),后期逐步收紧的策略,比全程严格约束的训练效果提升23%
3. 竞速规则与实验设计
3.1 竞技规则创新
为科学评估算法性能,我们设计了结构化竞赛规则(表I):
- 角色动态分配:落后方自动成为攻击者(Attacker),享有速度优势(+1m/s)但需承担避碰责任
- 有效超车判定:需领先0.75m以上并保持1秒,避免瞬时位置交换造成的判定模糊
- 胜负标准:以担任防守者(Defender)的总时长计分,鼓励持续主动竞争而非最后时刻偷袭
3.2 赛道环境配置
实验涵盖三种典型赛道(图3):
- 双纽线赛道:考验连续转向能力,超车点集中在弯道
- 李萨如赛道:具有交叉路径设计,增加策略互动复杂度
- 3D螺旋赛道:引入高度变化,验证三维空间策略生成能力
硬件平台采用自研竞速无人机,配置Intel NUC11(i7-1165G7)机载计算机,控制频率稳定在100Hz。值得注意的是,实际部署时发现电机响应延迟约80ms,这促使我们在仿真中增加了相应的延迟补偿模块。
4. 核心算法对比分析
4.1 MPC基准方法
传统轮廓MPC(Contouring MPC)将对手视为动态障碍物,其预测模型采用恒定速度假设:
\hat{p}_{opp}^{k+1} = p_{opp}^k + v_{opp}^k \cdot \Delta t虽然计算高效,但这种简化处理会导致两个典型问题:
- 过度保守:在并排飞行时提前避让,丧失超车机会
- 策略盲区:无法识别对手的防守动作,如"关门"策略
4.2 MPG方法深度解析
MPG将竞速建模为广义纳什均衡问题,其数学形式为:
\min_{u^i} J^i(x^i,u^i,x^{-i*}) \quad \text{s.t.} \quad x_{k+1}^i = f(x_k^i,u_k^i)采用PATH求解器处理互补约束,但面临两大挑战:
- 均衡选择问题:存在多个局部均衡时,可能收敛到次优解
- 实时性瓶颈:在近距离对抗时求解时间会指数增长
实测数据显示,MPG在双机距离小于1m时,计算耗时从平均60ms骤增至200ms以上。
4.3 LMPG实现细节
我们的方案通过三个关键技术解决上述问题:
- 策略蒸馏:用MPG生成1.2万组对决数据,包含各种对抗态势
- 微分博弈编码:将均衡求解过程作为可微层嵌入网络
- 延迟感知训练:在损失函数中加入时序一致性项:
\mathcal{L}_{consist} = \| \pi(x_t) - \pi(x_{t+\Delta t}) \|_2
硬件实测表明,LMPG将决策延迟从MPG的60ms降至3.5ms,同时保持85%以上的策略相似度。
5. 实验结果与性能对比
5.1 仿真环境验证
在同步执行模式(无计算延迟)下,MPG展现出理论优势:
- 超车成功率:MPG 92% vs MPC 17%
- 平均圈速优势:MPG比MPC快1.3秒/圈
但当引入实际计算延迟后(异步模式),形势逆转:
- MPG超车失败率飙升至68%,主要由于:
- 策略过时导致轨迹冲突
- 求解超时引发安全模式
5.2 LMPG性能突破
在高速(3m/s)异步模式下,LMPG展现出显著优势:
- 竞技性能:
- 对MPC胜率:82% (Lemniscate) → 76% (3D赛道)
- 对MPG胜率:89% (平均)
- 计算效率:
- 推理速度:285FPS (i7-1165G7)
- 内存占用:43MB
- 安全指标:
- 碰撞率比MPC降低64%
- 赛道偏离次数比MPG减少81%
5.3 实机飞行测试
在8×5×6m的实飞场地中,我们观察到一些仿真中未见的现象:
- 空气扰动影响:领先无人机产生的尾流会使追踪者位置估计误差增加30%
- 传感器延迟:VICON系统约15ms的延迟需要在前馈控制中补偿
- 电池衰减效应:比赛后期电压下降会导致最大推力降低22%
尽管如此,LMPG仍保持稳定的性能表现,其关键优势在于:
- 对不完美观测的鲁棒性
- 在线调整能力(单帧处理时间<5ms)
6. 工程实践中的经验总结
6.1 参数调优指南
- 预测时域选择:
- 低速(≤2m/s):建议时域2.5s (25步)
- 高速(≥3m/s):缩短至1.8s (18步)以降低计算负荷
- 代价函数权重:
weights = { 'tracking': 1.0, # 路径跟踪 'progress': 0.3, # 赛道进度 'safety': 5.0, # 安全距离 'input': 0.1 # 控制量惩罚 } - 网络结构选择:
- 隐含层超过3层会导致实时性下降
- 神经元数量<512可避免Jetson平台的缓存溢出
6.2 典型故障排查
振荡问题:
- 现象:无人机在并排时频繁左右摆动
- 解决方案:增加策略平滑项权重,限制最大偏航角速度
过冲弯道:
- 现象:高速下错过转弯点
- 调整方法:在代价函数中加入前瞻曲率项
求解失败:
- 检查:QP求解器的数值条件数
- 应急策略:回退到上一帧可行解
6.3 未尽挑战与改进方向
- 多机扩展:当前方法在3机以上场景会出现组合爆炸
- 在线学习:实飞数据与仿真数据的域适应问题
- 硬件加速:FPGA实现有望将延迟降至1ms以内
在实际部署中,我们开发了一套可视化调试工具,可实时显示:
- 预测轨迹与真实轨迹偏差
- 计算耗时分布
- 策略价值函数热图
这套系统帮助我们在两周内将超车成功率从63%提升到89%。