龙空技术网

通过深度Q学习建立的学习策略,能否提升机械旋转故障诊断效率?

云蘅不姓温 62

前言:

现时你们对“图像旋转算法设计与流程图”可能比较珍视,姐妹们都需要分析一些“图像旋转算法设计与流程图”的相关资讯。那么小编在网上搜集了一些有关“图像旋转算法设计与流程图””的相关知识,希望看官们能喜欢,咱们一起来学习一下吧!

文| 云蘅

编辑| 云蘅

●—≺ 旋转机械故障诊断方法 ≻—●

旋转机械故障诊断本质是模式识别,其中重要的步骤是故障特征提取与故障类型识别。

近年来,由于深度神经网络强大的特征学习能力,使其在旋转机械故障诊断领域得到快速发展。

利用深度学习进行故障诊断时,常见的模式为通过建立不同的深度神经网络从训练样本中学习故障特征进而实现故障诊断。

如:胡茑庆等对行星齿轮箱故障信号进行经验模态分解,得到内禀模式函数(IntrinsicModeFunction,IMF)后利用深度卷积神经网络融合特征信息明显的IMF进行故障诊断。

李巍华等利用深度置信网络直接从原始信号逐层学习轴承故障特征进行轴承故障诊断。

Cao等将长短期记忆网络(LongShortTermMemoryNetworks,LSTM)用于风机齿轮箱故障的模式识别。

Chen等对行星齿轮箱信号进行离散小波变换得到二维时频信息,再输入卷积神经网络(Con-volutionNeuralNetwork,CNN)进行分类识别。

Zeng等对信号进行S变换提取时频特征信息,提出了基于S变换和CNN的齿轮箱故障诊断。

以上方法都取得了不错的效果,但是大部分神经网络直接在最后一层使用Softmax分类器进行分类,且训练时更注重深度神经网络的特征学习能力,而忽略了决策能力在神经网络中的作用,这会影响诊断结果的准确性和可靠性,特别是在样本量不足时。

深度Q学习(DeepQNetwork,DQN)融合了深度学习的感知能力和强化学习的决策能力,已在视频游戏中得到广泛应用。

DQN通过智能体与环境间的互动,利用深度Q网络来提取数据的抽象表征,同时据此表征进行自我激励的强化学习,优化解决策略。

DQN不仅具有深度学习特征能力强的特点,还具备强化学习决策能力强的优势,使其在故障诊断中具有巨大潜力。

同时,由于旋转机械结构复杂,工况多变,信号传递过程中易耦合,采集到的振动信号往往具有非平稳非线性的特点,利用时频分析方法获得其二维时频信息更有利于深度Q网络学习特征和作出决策。

常见的时频分析方法中,S变换对高频带分辨率模糊,连续小波变换(ContinuousWaveletTrans-fer,CWT)具有很强的弱信号检测能力,相对于离散小波和二进制小波具有不易发生漏检和泄露的特点,故采用CWT对原始信号进行变换获得时间尺度谱。

综上所述,提出基于深度Q学习和连续小波变换的旋转机械故障诊断方法。首先利用CWT对非线性非平稳信号进行预处理,挖掘数据的二维时间尺度特征信息,以时间尺度矩阵构建出环境状态空间。

然后,用CNN拟合Q-learning中的Q函数,将环境返回的状态输入到深度Q网络中学习故障数据具体的状态特征表示,并据此表征学习策略。

再通过智能体与环境间不断交互学习以最大化Q函数值,得到最优策略,从而实现旋转机械故障诊断。通过不同工况和不同样本量下齿轮箱故障诊断实验证明了所提方法的可行性和有效性。

●—≺ 连续小波变换和深度Q学习算法 ≻—●

设函数ψ∈L(2R)∩L(1R)并且ψ(0)=0,由ψ经伸缩和平移可以得到一簇函数

式中a,b∈R,a≠0,称ψa,b为连续小波,a为伸缩因子,b为平移因子,ψ为母小波,对于任意函数(ft)∈L(2R),则其连续小波变换定义为

式中<f,ψa,b>表示两函数内积,ψ(t)表示ψ(t)的复共轭。

通过尺度为a、平移为b的子小波和信号内积可得到每个小波变换系数W(fa,b),当信号与该子波越相似,则系数值越大,特征成分将在时间尺度相平面上某处集结为高幅值的能量块,反之则能量发散。

通过不同的尺度变换,最终得到系数矩阵W(fa,b)能够刻画出信号的二维时间尺度特征。

Morlet小波与旋转机械发生故障时产生的冲击信号形状相似,故选其为母小波。

强化学习包含四个元素:智能体、环境状态、动作、奖励。其交互学习过程如图1所示。

智能体通过不停的交互利用从环境中得到的反馈信号,调整策略π来最大化长期累积奖励,定义累积奖励Gt如下

式中γ为折扣系数,通常使用状态-动作值函数来描述每个状态-动作对的好坏,状态-动作值函数也常被称为Q函数,公式如下

强化学习中基于值函数的策略学习算法包括SARSA、Q-learning等,本文选用Q-learning算法,其迭代公式如下

式中Q(s,a)为Q函数;s,a,r分别为当前状态、动作和奖励;Q(s,a)取得最大值的s′,a′即为下一个状态和动作。

折扣系数γ介于0-1之间,其数值越小表明智能体在学习过程中越在意当前的奖励,δ为Q学习率,用于权衡Q函数学习的快慢。

CNN利用多层特征提取层,自适应提取状态特征形成更加抽象的特征表达,具有拟合任何函数的特点。

因此,可用CNN拟合表示Q函数得到深度Q网络,结构如图2所示。

其中I层为输入层,C1层为第一层卷积层,P1层为对应池化层,经过多次卷积与池化,最后将最后一层扩展成全连接层F,Q层为输出层,每一层的具体介绍如下:

1)卷积层。

多个卷积核分别与输入图像进行卷积,加上对应的偏置值,一个卷积核对应一个偏置值,加上偏置值之后通过激活函数就可以得到一系列特征图,其过程用数学描述如下

式中Xlj为l层第j个元素,Mj为l-1层特征图的第j个卷积区,Xl-1j为前一层特征图上第j个元素,Wlij为l层的权重矩阵,blj为l层的偏置矩阵,(f)为激活函数,使用Relu函数如下

2)池化层。

通过对图像进行降维处理,除去冗余信息,保留数据的重要特征,同时减少了计算量,提高特征学习了的效率,公式如下

.

式中down(·)为下采样函数,βlj表示第l层第j个特征图的权值,blj表示第l层第j个特征图的偏值,经过池化层l后的特征图和卷积层的特征图在数量上保持不变,大小改变。

3)全连接层。经过多个卷积层和池化层,网络提取到数据的特征,通过全连接层将前一层的特征图连接,最后连接分流层,与全连接层连接前,需要将前一层的所有特征图展成一维特征向量。

式中yk为全连接层的输出层,xk-1是展开的一维特征向量,(f·)为激活函数,k为网络层数序号,wk为权重系数,bk为偏置值。

4)输出层。通过前面的卷积、池化等操作,卷积神经网络在输出层得到故障数据状态下每类动作Q值,即

式中Q(s,a;θ)为卷积神经网络的Q值,θ为卷积神经网络的权重参数。

通过卷积神经网络拟合Q函数,同时结合Q-learning算法得到的深度Q学习算法如表1所示,其中Q函数的迭代公式如下

式中yi为第i次迭代目标值的优化结果;g(s,a,s′)为奖励发生器;θi,θ-i为深度Q网络、目标网络的权重参数。

目标网络与深度Q网络结构相同,每迭代C次将DQN的参数θi复制给目标网络的参数θ-i。

ε-贪婪策略和奖励发生器g(s,a,s′)公式如下

式中0<ε<1,用于权衡智能体在学习过程中对环境进行探索和利用的程度。

图3为智能体决策过程中的移动示意图,每层具有Z个节点,每个节点代表故障种类。

每一次迭代,智能体根据环境返回的数据状态使用公式(12)做出某个动作,当实际决策做出的动作所对应的节点与标记故障类型一致时,设置奖励值r。否则奖励值为0。

通过智能体与环境交互作用产生大量经验样本,然后随机抽取输入到深度Q网络和目标网络产生误差,采用随机梯度下降方法调节深度Q网络的权重和偏值,使误差达到最小值,本文使用的损失函数为均方误差函数,

对式(12)求一阶偏导数,可以将得到的误差逐层反向传递,进而更新卷积神经网络的参数:

左侧为更新后的wlkj和blj,η为学习率,依次类推,逐层更新由l层到l-1层的权重和偏置值。

●—≺ 基于深度Q学习和连续小波变换的旋转机械故障诊断流程 ≻—●

所提故障诊断方法流程图如图4所示,智能体由深度Q网络、目标网络、以及回放记忆单元等构成,智能体通过卷积神经网络可以感知数据状态的抽象表征,同时根据环境反馈奖励值进行策略学习。

主要步骤如下:

采集数据与划分合理布置加速度传感器的位置,采集到的时域数据划分方式如下:确定数据状态(即样本)个数Ns=lt/ls,其中lt为时域信号长度,ls为样本长度。

由此,可得到某个时域数据状态dtdk,下标k表示状态序列,上标td表示时域数据。

环境状态空间的构建将故障类型映射到动作空间集A={a1=0,a2=1,…,ai=n-1},n为故障类型数。可得到某故障类型的数据状态空间集

式中i<n,k≤Ns,sk为当前故障数据状态空间中的某个状态,包含对时域数据dtdk进行CWT变换得到时间尺度特征dcwtk,动作空间集A与数据状态空间集S的对应关系如下

训练深度Q网络智能体根据某故障类型的数据状态sk决策出动作ai,即决策出故障类型。

然后环境根据动作ai利用公式(18)返回对应故障类型的下一数据状态空间中某个状态sk′,同时根据公式(13)对当前的决策结果进行评价,给予奖励值r。

回放记忆单元将每一次的交互数据(sk,ai,r,sk′)存储在回放记忆单元D中,然后随机抽取K个样本输入到深度Q网络和目标网络。

采用随机梯度下降法来减少公式(14)中的误差值,同时更新深度Q网络的权重和偏置值参数以最大化Q函数值。

故障诊断结果输出将测试样本输入到深度Q网络,输出诊断结果。

●—≺ 实验验证 ≻—●

通过动力传动故障诊断综合实验台进行实验,该齿轮箱中齿轮和轴承均存在故障,实验台如图5所示,故障类型及描述如表2所示。

表2中,齿轮故障类型包括断齿、缺齿、齿根裂纹、齿面磨损及正常共计5种。

轴承故障包括滚动体、内圈、外圈、复合故障及正常5种。实验中在两种工况下采集到振动加速度信号,两种工况分别为:1.电机转频20Hz,负载电压0V;2.电机转频30Hz,负载电压2V。

图6为齿轮箱中不同故障齿轮的时域波形图和幅值谱,不同故障的特征并不明显,如正常状态和齿面故障的波形极为相似,人工诊断极易出错。

图7为对应的时间尺度图,可观察到不同故障类型的能量分布存在显著差异,如图中断齿故障和正常状态的能量分布具有差异。因此,信号通过CWT处理更能表达出不同故障之间的特征信息。

首先进行齿轮故障诊断实验。

所使用的网络结构如下:两层卷积层,每层卷积层卷积核的个数为C1=32,C2=32,C3=64,卷积核大小均为5×5,且每层卷积层后连接2×2池化层,池化方式采用平均池化方式。

第一层全连接层神经元个数为F1,第二层隐藏层神经元个数为1024;输出层神经元个数为5,即故障类型个数。每个工况下的每类故障样本量为150,训练集∶测试集=7∶3。

对于DQN参数设置,目前主要通过经验和采用控制变量法进行调参后确定。

因篇幅有限,以Q函数学习率δ和神经网络学习率η的调参过程为例进行说明。表3为不同δ,η数值下得出的诊断结果。

观察表3,不同参数下智能体学习到的策略存在一定差异,从而得到不同的诊断精度,当η=0.06,δ=1时,在工况20Hz-0V,30Hz-2V时分别为99.76%,94.51%,同时达到最大值。

因此选定参数η=0.06,δ=1,其他参数的设定过程类似。通过不断调参分析后参数设置如表4所示。

表5为对应的卷积神经网络结构参数设置情况,其中卷积层C包含卷积核个数和卷积核大小两个参数,池化层P包含层数和池化大小两个参数。

全连接层F只有神经元数目一个参数,所有输入层I和输出层O的参数设置一样,输入维度为34×34×1,输出维度大小为故障类型个数。

●—≺ 结论 ≻—●

本文针对故障诊断中深度神经网络感知能力强、决策能力弱的问题,提出了基于深度Q学习和连续小波变换的旋转机械故障诊断方法。

利用连续小波变换挖掘信号的二维时间尺度特征信息,将时间尺度矩阵作为智能体的当前状态,输入到深度Q网络中提取状态特征。

同时通过Q-learning算法进行策略学习,然后环境对智能体做出的动作进行评价。通过智能体与环境之间不停的交互“试错”,更新策略以提升决策能力,最终得到最优策略实现故障诊断。

这种方法融合了深度学习的特征学习能力与强化学习的决策能力,在样本量有限时优势突出,进一步发展了基于深度学习的故障诊断理论与方法。

根据平台规则,您关注+点赞评论会保持铁粉身份,为您推荐更多优质内容

---END---

标签: #图像旋转算法设计与流程图