算法1 .主要体系结构可以分解为以下部分进行理解。
*首先,DDPG的特征是,actor是PG的框架,但是actor输出的动作值不是概率分布,而是确定的连续动作选择。 所谓该网络,是将状态作为输入给出,表示在该状态下最应该取得的动作值的动作。 并对其在线网络的更新基于critic网络提供更新依据。 也就是说,在下面的公式中,使用这个s和a得到critic评价的q值,改变梯度,以便向网络传达下次选择时如何采取行动值。 也就是说,在该优化训练online网络的情况下,需要根据critic提供的对该动作的q值评价进行梯度调整。q是critic提取的,q值的梯度实际上也是critic网络计算提供的。
在actor网络的target网络部分,完全是一定期间的软更新,也就是说一定期间后进行参数的保存。 该target网络的主要作用是在critic网络的target现实部分进行下一步行动的选择,根据这里的现实网络情况进行行动的选择)其实这里也有疑问,actor网络的输入是状态这两种方式中的哪一种……【搜索后,这里critic网络应该是第一种形式,输入应该是状态和动作,输出应该是该动作对应的q值】
“关键”部分还包括两个部分:在线和目标。 online部分实际上类似于以前的DDQN方法。 也就是说,网络根据输入的行为和状态输出q值,根据利用target网络提供的真值计算TD-error进行网络训练,在一段时间后进行target网络的更新
*第三部分是行动探索和记忆更新。 行动搜索对应于1和2两个部分,前期倾向于有噪声的随机搜索,从而提高搜索能力,每次行动搜索都会产生状态转移和即时报酬。
2 .记忆的利用,在3和4两个部分,即actor网络进行搜索的同时,也保存直观的环境反馈情况等。 前期随机偏移,后期不断智能) )之后,进行网络训练时,继续采样记忆进行两种网络训练,但应该是记忆的碎片存储方式,用于两个网络使用的存储但是,在更新时,网络之间存在一些相互关系
算法结构
意义1 )按照一定的有噪声的行为策略选择行为。
2 )环境根据选择的动作给出报酬和新状态的反映。
3 )记忆有智能还是没有智能的行为记忆,如DDQN。
4 )从银行中选择批次,进行两个网络不同形式和利用的训练。
5 )在critic中,q串口网络将下一个状态和下一个需要选择的动作作为网络输入,通过rqnext )计算获取q串口值。
6:critic网络计算td-error梯度进行网络更新。
7 )在更新Actor网络的在线网络时,需要对其当前行为进行梯度计算调整,使得网络倾向于在相同状态下生成更好的行为选择,因此为了依赖于该操作的q值,需要将q值设置为关键网
8 )用优化器计算的坡度结果更新网络参数。
9 )两种网络格式之间的软更新。