龙空技术网

基于重要性采样的分布式强化学习算法

布谷AI 387

前言:

此时朋友们对“最新的优化算法布谷鸟算法”大体比较关注,咱们都想要知道一些“最新的优化算法布谷鸟算法”的相关知识。那么小编也在网上收集了一些关于“最新的优化算法布谷鸟算法””的相关资讯,希望大家能喜欢,大家快快来了解一下吧!

IMPALA:Importance Weighted Actor-Learner Architectures,模型与GA3C:基于GPU的异步并行强化学习算法很相似,但是引入value纠错模块V-trace,模型可以接受更多的延迟(policy-lag),实现离线学习(off-policy),拥有更大的吞吐量。

模型结构

IMPALA的基础模型结构与并行强化学习算法:A2C/A3C一致,经典的Actor-Critic结构,输出包含policy π(.|s) 和 state Value V(s)。

每一个Actor和Learner都有此网络结构,但是参数不同。

学习过程每个Actor单独定期地从Learner同步参数,然后进行数据收集(s, a, r, s')。所有Actor收集的数据都会即时存储到数据采样队列(queue)里。当队列的数据达到mini-batch size时,Learner开始梯度学习,并更新其参数。Actor与Learner互不干扰,Actor定期从Learner同步参数,Learner定量学习更新参数。Learner也可以是分布式集群,这种情况下,Actor需要从集群同步参数。Actor一般使用CPU,Learner使用GPU。

impala paper

损失函数

损失函数与A3C类似,value loss、policy loss 和 熵正则三部分叠加在一起,构成整体的损失函数。计算损失函数时一般前面加上系数超参数,注意策略梯度和熵是最大化,其相关系数为负值。

impala paper

策略梯度中v_s的细节见V-trace,ρ_s为重要性权重:

V-trace

因为Actor收集数据时的policy与Learner学习时的policy不一定一致,V-trace就是针对不同采样数据时的policy,设计不同重要性权重,纠正此误差。

impala paper

核心与PPO:近端策略优化深度强化学习算法类似,通过重要性权重π/μ控制数据贡献,同时通过超参数ρ和c_i来控制函数的收敛性:

一个特例就是当π=μ,超参数均为1,此时V-trace就是on-policy n-steps学习:

模型特点与A2C相比,Actor采集数据无需等待,并由GPU快速统一学习。与A3C相比 ,Actor无需计算梯度,只需收集数据,数据吞吐量更大。与GA3C相比,引入V-trace策略纠错,同时接受更大延迟,方便大规模分布式部署Actors框架拓展方便,支持多任务学习。但是当场景包含很多终止条件的Episode,而又对这些终止(Terimal)敏感时,不管是在Actor收集数据时,还是在Learner梯度学习时,分段处理长短不一的Episode,都会降低IMPALA的性能,影响其流畅性;所以场景最好是Episode不会终止或者是对终止不敏感。

标签: #最新的优化算法布谷鸟算法