/chapter4/chapter4_questions&keywords #53

qiwang067 · 2021-05-24T01:15:02Z

https://datawhalechina.github.io/easy-rl/#/chapter4/chapter4_questions&keywords

Description

Sunnyzhr · 2021-08-06T12:19:20Z

$\text { 因此 } \nabla \mathrm{p}{\theta}(\tau)=\nabla \log \mathrm{p}{\theta}\left(\mathrm{a}{\mathrm{t}}^{\mathrm{n}} \mid \mathrm{s}{\mathrm{t}}^{\mathrm{n}}\right)$

是不是写错了？

yyysjz1997 · 2021-08-07T05:39:21Z

谢谢你的留言，应该是没有写错的，具体的公式推导可见教程 “第四章策略梯度”。

Strawberry47 · 2021-11-10T06:50:18Z

谢谢博主 Thanks♪(･ω･)ﾉ

SaleJuice · 2021-12-16T10:57:03Z

keywords里的“Reinforce”是不是写成全大写的“REINFORCE”更好些。与之前的笔记更衔接些。

yyysjz1997 · 2021-12-17T08:20:51Z

是的是的，这里的REINFORCE表示一种基于策略梯度并使用回合更新的强化学习的经典算法，应该区别于Reinforce，谢谢你的建议，已经改正～

SCurry-30 · 2023-03-04T10:52:30Z

Policy Gradient

chensisi0730 · 2023-06-27T06:45:48Z

就我觉得符号体系混乱吗？策略一会是p 一会是π,并且和前三章体系也不同，

qiwang067 · 2023-06-28T06:34:17Z

就我觉得符号体系混乱吗？策略一会是p 一会是π,并且和前三章体系也不同，

用 p 来表示策略是为了方便读者理解，后续会考虑统一符号（加上对应注解）；
关于体系的问题，其实是从不同的角度来讲解知识，后面会考虑统一风格

qiwang067 added Gitalk /chapter4/chapter4_questions&keywords labels May 24, 2021

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

/chapter4/chapter4_questions&keywords #53

/chapter4/chapter4_questions&keywords #53

qiwang067 commented May 24, 2021

Sunnyzhr commented Aug 6, 2021

yyysjz1997 commented Aug 7, 2021

Strawberry47 commented Nov 10, 2021

SaleJuice commented Dec 16, 2021

yyysjz1997 commented Dec 17, 2021

SCurry-30 commented Mar 4, 2023

chensisi0730 commented Jun 27, 2023

qiwang067 commented Jun 28, 2023

/chapter4/chapter4_questions&keywords #53

/chapter4/chapter4_questions&keywords #53

Comments

qiwang067 commented May 24, 2021

Sunnyzhr commented Aug 6, 2021

yyysjz1997 commented Aug 7, 2021

Strawberry47 commented Nov 10, 2021

SaleJuice commented Dec 16, 2021

yyysjz1997 commented Dec 17, 2021

SCurry-30 commented Mar 4, 2023

chensisi0730 commented Jun 27, 2023

qiwang067 commented Jun 28, 2023