total_loss = actor_loss + 0.5*critic_loss? PPO中actor与critic网络更新为什么都使用total_loss #80

CeibaSheep · 2022-01-05T13:06:38Z

请问，在PPO代码的agent.py 文件，

为啥要算total_loss = actor_loss + 0.5*critic_loss? PPO讲解中未见分析欸，而且 PPO原文中也未看到相关操作。

另外，为什么AC网络均使用total_loss的梯度, 这个地方合理吗？？？

zichunxx · 2022-05-07T07:53:11Z

请问，在PPO代码的agent.py 文件，

为啥要算total_loss = actor_loss + 0.5*critic_loss? PPO讲解中未见分析欸，而且 PPO原文中也未看到相关操作。

另外，为什么AC网络均使用total_loss的梯度, 这个地方合理吗？？？

你好，请问你找到理论依据了吗，我也有同样的困惑。

ecsfu · 2024-02-08T13:21:11Z

请问，在PPO代码的agent.py 文件，

为啥要算total_loss = actor_loss + 0.5*critic_loss? PPO讲解中未见分析欸，而且 PPO原文中也未看到相关操作。

另外，为什么AC网络均使用total_loss的梯度, 这个地方合理吗？？？

我理解是不是求梯度的时候还是各求各的，不相关的视为常数，导数为0，这样就分开计算损失是一样的

qiwang067 assigned johnjim0816 May 8, 2022

Provide feedback