龙空技术网

优秀博士学位论文精华版:零和博弈的事件驱动自适应动态规划方法

中国人工智能学会 11253

前言:

目前你们对“动态规划博弈问题”都比较关注,各位老铁们都需要了解一些“动态规划博弈问题”的相关资讯。那么小编也在网络上收集了一些有关“动态规划博弈问题””的相关知识,希望咱们能喜欢,你们一起来学习一下吧!

摘 要

自适应动态规划方法在解决复杂非线性博弈问题上还存在着许多未解决的问题,如何提高数据的利用率,节省通信资源,减轻计算负担是自适应动态规划算法的一个研究热点。本文基于事件驱动机制和单评价网络ADP 结构,提出了事件驱动ADP 算法在线学习二人零和博弈的纳什均衡解,通过设计事件驱动条件和评价网络权值的更新率保证了闭环系统的稳定性和逼近器的收敛性,同时证明了算法中最小的内部采样间隔大于一个正的最小下边界,从而避免了芝诺行为的出现。

关 键 字

自适应动态规划;零和博弈;事件驱动

0 引言

零和微分博弈中的参与者是完全竞争的关系,对于二人零和博弈而言,就是一方参与者期望通过选择策略使得值函数最大化,而另一方参与者期望使得值函数最小化,这与H∞ 最优控制问题中控制器作为最小化参与者而干扰项作为最大化参与者有着紧密的联系, 因此面向零和博弈的ADP 也常常被用于设计H∞ 最优控制器。对于零和微分博弈问题,为得到纳什均衡解,需要求解相应的哈密顿- 雅克比- 艾萨克(Hamilton-Jacobi-Isaacs, HJI) 方程。由于系统的非线性特性,往往很难得到方程的解析解。而动态规划这类逼近求解的方法,随着系统维数的增加会面临“维数灾难”的难题。自适应动态规划结合了动态规划和人工神经网络技术,利用人工神经网络逼近任意函数能力,同时可以基于数据进行降维,解决了动态规划中面临的“维数灾难”难题,这使得ADP作为一种新的优化控制方法受到了人们的广泛关注。然而传统的ADP 方法都是在固定采样周期地更新控制信号,在两个相邻采样时刻点之间,由于零阶保持器的作用控制信号保持不变。从网络资源合理利用的角度看,固定采样周期方式有时并不合适,比如在没有任何扰动施于系统,或系统在一种理想的状况下运行时,周期地执行控制任务很明显浪费过多通信资源。

事件驱动控制的基本思想就是在保证闭环系统具有一定性能(如稳定)的情况下,通过设计合理的事件驱动条件来减少控制信号的传输,一旦设计的事件驱动条件不成立,对系统信号进行采样并更新控制器,而针对事件驱动条件成立的情况,控制器仍保持上一驱动时刻的值,这样就有效减轻了控制信号传输至执行器的数目,从而节省通信资源并减轻计算负担。简单地说,事件驱动机理就是控制任务“按需”执行同时保证系统具有一定的性能, 其基本原理如图1 所示。为实现节省通信资源,减轻计算负担的目的,本文将事件驱动控制与自适应动态规划方法相结合,提出了事件驱动ADP 算法在线学习二人零和博弈的纳什均衡解,通过设计事件驱动条件和评价网络权值的更新率保证了闭环系统的稳定性和逼近器的收敛性,同时证明了算法中最小的内部采样间隔大于一个正的最小下边界,从而避免了芝诺行为的出现。通过仿真实例验证了事件驱动ADP算法的有效性。

确保整个闭环系统是渐进稳定的, 同时评价网络的权值估计误差是一致最终有界的。

图2 零和博弈问题事件驱动ADP 算法的结构示意图

4 仿真验证

程中的驱动时刻, 共发送1 835 次状态采样, 与传统ADP 需要35000 次状态采样相比, 大大减轻了计算量及控制器与系统间的通信资源。

选自《中国人工智能学会通讯》

2020年 第10卷 第2期 优秀博士学位论文精华版

标签: #动态规划博弈问题 #动态规划博弈问题分析 #博弈 动态规划