ddpg和a3c哪个好,fcfs算法的基本思想

算法1 .主要体系结构可以分解为以下部分进行理解。

*首先，DDPG的特征是，actor是PG的框架，但是actor输出的动作值不是概率分布，而是确定的连续动作选择。所谓该网络，是将状态作为输入给出，表示在该状态下最应该取得的动作值的动作。并对其在线网络的更新基于critic网络提供更新依据。也就是说，在下面的公式中，使用这个s和a得到critic评价的q值，改变梯度，以便向网络传达下次选择时如何采取行动值。也就是说，在该优化训练online网络的情况下，需要根据critic提供的对该动作的q值评价进行梯度调整。q是critic提取的，q值的梯度实际上也是critic网络计算提供的。

在actor网络的target网络部分，完全是一定期间的软更新，也就是说一定期间后进行参数的保存。该target网络的主要作用是在critic网络的target现实部分进行下一步行动的选择，根据这里的现实网络情况进行行动的选择)其实这里也有疑问，actor网络的输入是状态这两种方式中的哪一种……【搜索后，这里critic网络应该是第一种形式，输入应该是状态和动作，输出应该是该动作对应的q值】

“关键”部分还包括两个部分：在线和目标。 online部分实际上类似于以前的DDQN方法。也就是说，网络根据输入的行为和状态输出q值，根据利用target网络提供的真值计算TD-error进行网络训练，在一段时间后进行target网络的更新

*第三部分是行动探索和记忆更新。行动搜索对应于1和2两个部分，前期倾向于有噪声的随机搜索，从而提高搜索能力，每次行动搜索都会产生状态转移和即时报酬。

2 .记忆的利用，在3和4两个部分，即actor网络进行搜索的同时，也保存直观的环境反馈情况等。前期随机偏移，后期不断智能) )之后，进行网络训练时，继续采样记忆进行两种网络训练，但应该是记忆的碎片存储方式，用于两个网络使用的存储但是，在更新时，网络之间存在一些相互关系

算法结构

意义1 )按照一定的有噪声的行为策略选择行为。

2 )环境根据选择的动作给出报酬和新状态的反映。

3 )记忆有智能还是没有智能的行为记忆，如DDQN。

4 )从银行中选择批次，进行两个网络不同形式和利用的训练。

5 )在critic中，q串口网络将下一个状态和下一个需要选择的动作作为网络输入，通过rqnext )计算获取q串口值。

6:critic网络计算td-error梯度进行网络更新。

7 )在更新Actor网络的在线网络时，需要对其当前行为进行梯度计算调整，使得网络倾向于在相同状态下生成更好的行为选择，因此为了依赖于该操作的q值，需要将q值设置为关键网

8 )用优化器计算的坡度结果更新网络参数。

9 )两种网络格式之间的软更新。

ddpg和a3c哪个好,fcfs算法的基本思想

Published by

风君子

发表回复取消回复

Published by

风君子

发表回复 取消回复

发表回复取消回复