【第16章强化学习】待推导或待解析公式征集+答疑专区 #75

Sm1les · 2019-07-25T02:42:37Z

在这里，你可以：
1.评论留下西瓜书第16章你觉得需要补充推导细节或者解析的公式编号，我们看到后会尽快进行补充；
2.评论留下你对南瓜书第16章里相关内容的疑问，我们看到后会尽快进行答疑。

fishfishfishfishfish · 2019-08-09T12:59:46Z

想问下，16章第二节，书第373页中讲的“T步累积奖赏”和“γ折扣累计奖赏”的两条式子要怎么理解呢？

Sm1les · 2019-08-09T14:28:19Z

@fishfishfishfishfish 同学你好，我代16章的主要贡献者回答一下你：“奖赏是对策略的每次平均反馈求和，平均有两种，一种是算术平均，对应T步累计，另一种是加权平均，对应γ折扣累计”

fishfishfishfishfish · 2019-08-10T00:15:27Z

@Sm1les 谢谢您的回答，但我还是不太清楚。追问一下，为什么E里面，一个是求和到T，一个是求和到正无穷呢？“T步累计奖赏”是不是只适用于那种步数是固定的游戏呢？

MrBigFan · 2019-08-10T03:56:14Z

@Sm1les 谢谢您的回答，但我还是不太清楚。追问一下，为什么E里面，一个是求和到T，一个是求和到正无穷呢？“T步累计奖赏”是不是只适用于那种步数是固定的游戏呢？

同学您好，我是负责16章的同学，r折扣是理论上从r^0累计到r^无穷，而r是属于(0,1)，所以每次累计后，奖赏权重在降低，r^无穷 = 0，可以这样理解：对比T步累计奖赏，r折扣中的最后一些步由于权重很低所以可以忽略不计，但因为要严谨公式上表达还是累计到无穷步。（从某一步开始以后的累计，对整个奖赏作用很微小，可以参考高数中求极限的思想理解。）从极限的角度思考的话，T步累计也可以用于无穷步的游戏（前提是存在无穷步的游戏），只不过这里的极限是常数极限。

fishfishfishfishfish · 2019-08-10T06:59:31Z

@MrBigFan 非常感谢！为什么会有这两种方法呢，“T步累积”还比较好理解，但是"γ折累积"为什么是越到后面奖赏权重越低呢？

fishfishfishfishfish · 2019-08-10T08:18:45Z

再问个问题，16.3.1策略评估的时候，计算值函数V使用的π是概率表示π(x,a)，表示以一定概率采取动作，但是在16.3.2策略改进时，π又变成了确定性表示π(x)，表示看到状态x就采取对应动作，为什么这两个部分对π的描述不一致呢？

MrBigFan · 2019-08-10T09:23:03Z

@MrBigFan 非常感谢！为什么会有这两种方法呢，“T步累积”还比较好理解，但是"γ折累积"为什么是越到后面奖赏权重越低呢？

同学您好，r折扣累计奖赏的每一步是基于前一步反馈得到的信息，当然每一步的学习效率是逐渐减小的（后一步学习的信息很难得到像前一步学习一样多的信息，最多100%）所以权重也是逐渐减小的。

MrBigFan · 2019-08-10T09:25:07Z

再问个问题，16.3.1策略评估的时候，计算值函数V使用的π是概率表示π(x,a)，表示以一定概率采取动作，但是在16.3.2策略改进时，π又变成了确定性表示π(x)，表示看到状态x就采取对应动作，为什么这两个部分对π的描述不一致呢？

16.3.1是策略评估，当然和采取动作的概率有关，但16.3.2是策略改进，是对已经形成的(近似)最优策略更新，就变成了确定性表示。

fishfishfishfishfish · 2019-08-10T11:38:44Z

感谢~累计奖赏的问题大概懂了。但是π的问题还不是很懂，两个不同的表示在计算时不会有问题吗，下面确定性的π怎么代到上面概率性的π里呀

MrBigFan · 2019-08-19T02:55:23Z

感谢~累计奖赏的问题大概懂了。但是π的问题还不是很懂，两个不同的表示在计算时不会有问题吗，下面确定性的π怎么代到上面概率性的π里呀

同学你好，最近才结束回复你，确定性也是一种概率，可以代进去

Laqw · 2019-08-19T09:53:58Z

请问南瓜书中强化学习16.8公式的推导这一步是怎么从上一步推导出来的啊？可以说说具体吗？

fishfishfishfishfish · 2019-08-19T10:27:51Z

@Laqw 同学你好，这是我前几天推到16.7和16.8的笔记，希望能帮到你。如果有错还请见谅
推导.pdf

fishfishfishfishfish · 2019-08-19T10:28:50Z

@MrBigFan 好的谢谢~

Laqw · 2019-08-19T10:30:15Z

@fishfishfishfishfish 谢谢你的笔记

ZinYY · 2020-07-16T02:22:37Z

这一步的等号感觉没什么道理吧？29考虑的是单步RL，31是多步RL的？

MrBigFan · 2020-07-21T11:39:49Z

这一步的等号感觉没什么道理吧？29考虑的是单步RL，31是多步RL的？

你好，这个证明的解释是这样的，我们需要证明式子(31)，对比式子(29)，我们会不难发现只需要得到r_t+1的表达式就可以了。然后我们分析r_t+1这个表达式，含义就是第t+1步的奖赏，那就是状态x变化到x'的奖赏加上前面t步奖赏总和的γ折扣，所以我这里最后说r_t+1可以由γ折扣累积奖赏估计到，那这样就证明了公式(31)

MrBigFan · 2020-07-21T11:42:23Z

这一步的等号感觉没什么道理吧？29考虑的是单步RL，31是多步RL的？

另外，至于公式(29)和(31)，西瓜书上也有解释，这两个都是第t+1次采样的值函数。

yllgl · 2021-02-08T07:07:59Z

这一步的等号感觉没什么道理吧？29考虑的是单步RL，31是多步RL的？

另外，至于公式(29)和(31)，西瓜书上也有解释，这两个都是第t+1次采样的值函数。
r_t+1这个表达式，含义就是第t+1步的奖赏，那就是状态x变化到x'的奖赏加上前面t步奖赏总和的γ折扣。

我也很难理解这个等式。第t+1步的奖赏为什么要加前面t步奖赏总和？又不是第t+1步的累积奖赏。还有，我也不理解Q_t+1(x,a)以γ折扣累积奖赏时代表的含义，是指把p378中的16.6式γ折扣累积奖赏的定义中的正无穷上限求和改成t+1上限求和就行了吗？

4fee8fea · 2021-05-25T01:52:54Z

您好！

对于等式(16.14)，我不理解为什么只考虑使得Q(x,a)在最优策略下取最大值对应的动作。

V(x)的计算过程，考虑了所有的动作a。为何此处可以只取其中的一个动作呢？

谢谢解答！

rikonaka · 2021-07-19T07:46:37Z

@fishfishfishfishfish 请问一下这个p代表什么意思，然后如何通过这个p得出下面的公式

archwalker · 2021-08-02T07:13:15Z

您好！

对于等式(16.14)，我不理解为什么只考虑使得Q(x,a)在最优策略下取最大值对应的动作。

V(x)的计算过程，考虑了所有的动作a。为何此处可以只取其中的一个动作呢？

谢谢解答！

你好，抱歉没有注意的你的问题，这是因为式16.14限制了该累计奖赏是最优的，因此需要取能够使得累计奖赏达到最优的动作。

ChenZQ-nano · 2021-10-14T06:23:37Z

请问能否给出在T步累积奖赏下的16.16公式的证明？西瓜书中公式16.14并没有严格的数学证明（您给上一位同学的回答似乎不严谨，尤其是对于T步累积奖赏的值函数而言，因为您没有给出“T步累积奖赏”下16.16的证明），在国外许多论坛也有很多有关16.14的提问，现在我可以在“折扣累积奖赏”的值函数定义下利用反证法证明16.14，过程如下（来自https://mathoverflow.net/questions/321701/proof-of-bellman-optimality-equation-for-finite-markov-decision-processes）。但是似乎没有办法在“T步累积奖赏”定义的值函数下证明16.16，我也因此没法证明16.14在“T步累积奖赏”下能否成立。另外在Sutton的书里，也没有使用“T步累积奖赏”推导Bellman最优公式，请问要如何解释这个问题？

TangJiakai · 2021-11-11T02:17:17Z

请问这里为什么还是x’呢？

换句话说，之前的x‘和这一行的x’肯定不能混用吧？这样写会不会太令人费解了。。

Jian-Yin-Shine · 2022-02-21T13:13:09Z

这等号觉得有什么道理吧？29步是单步RL，31是多步RL的？

你好，这个证明的解释是这样的，然后我们需要证明式子（31），对比式子（29），我们会不难发现只需要得到r_t+1的表达式就可以了。我们分析r_t+ 1这个表达式，表示状态就是第t+1步的奖赏，那是x变化到x的奖赏加上前面t步奖赏总和的γ折扣，所以我这里最后说r_t+1可以由γ折扣奖赏估计到，那这样就证明了公式(31)

我们分析r_t+ 1这个表达式，表示状态就是第t+1步的奖赏，即为$R_{x \to x'}^{a}$，哪里有后面的折扣累计奖励？

chanforg · 2022-04-08T13:50:15Z

请问这两行是怎么推导出来的，并且第一行的两个加和符号下面的x'应该分别是x'和x‘’吧，代表着时序2的状态和时序3的状态。期待回复。

hanxiDuan · 2022-04-26T13:50:05Z

建议把公式（16.4）修改一下

Sm1les · 2022-04-26T14:02:05Z

@hanxiDuan 谢谢雨含，我们已收到，会尽快更新上去 :)

huskyth · 2022-09-25T09:24:49Z

请问这里为什么还是x’呢？换句话说，之前的x‘和这一行的x’肯定不能混用吧？这样写会不会太令人费解了。。
后来解决了吗

48066 · 2023-08-27T04:40:15Z

这等号觉得有什么道理吧？29步是单步RL，31是多步RL的？

你好，这个证明的解释是这样的，然后我们需要证明式子（31），对比式子（29），我们会不难发现只需要得到r_t+1的表达式就可以了。我们分析r_t+ 1这个表达式，表示状态就是第t+1步的奖赏，那是x变化到x的奖赏加上前面t步奖赏总和的γ折扣，所以我这里最后说r_t+1可以由γ折扣奖赏估计到，那这样就证明了公式(31)

我们分析r_t+ 1这个表达式，表示状态就是第t+1步的奖赏，即为$R_{x \to x'}^{a}$，哪里有后面的折扣累计奖励？

同不懂。我也觉得r_{t+1}和R_{x \to x'}是一回事啊。请问有什么解释吗？

mrxiaojie · 2023-08-27T04:40:57Z

中午好！您的邮件我已经收到了，谢谢您的支持！

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

【第16章强化学习】待推导或待解析公式征集+答疑专区 #75

【第16章强化学习】待推导或待解析公式征集+答疑专区 #75

Sm1les commented Jul 25, 2019

fishfishfishfishfish commented Aug 9, 2019 •

edited

Sm1les commented Aug 9, 2019

fishfishfishfishfish commented Aug 10, 2019

MrBigFan commented Aug 10, 2019

fishfishfishfishfish commented Aug 10, 2019

fishfishfishfishfish commented Aug 10, 2019

MrBigFan commented Aug 10, 2019

MrBigFan commented Aug 10, 2019

fishfishfishfishfish commented Aug 10, 2019

MrBigFan commented Aug 19, 2019

Laqw commented Aug 19, 2019

fishfishfishfishfish commented Aug 19, 2019

fishfishfishfishfish commented Aug 19, 2019

Laqw commented Aug 19, 2019

ZinYY commented Jul 16, 2020

MrBigFan commented Jul 21, 2020

MrBigFan commented Jul 21, 2020

yllgl commented Feb 8, 2021

4fee8fea commented May 25, 2021

rikonaka commented Jul 19, 2021

archwalker commented Aug 2, 2021

ChenZQ-nano commented Oct 14, 2021 •

edited

TangJiakai commented Nov 11, 2021

Jian-Yin-Shine commented Feb 21, 2022

chanforg commented Apr 8, 2022

hanxiDuan commented Apr 26, 2022

Sm1les commented Apr 26, 2022

huskyth commented Sep 25, 2022

48066 commented Aug 27, 2023

mrxiaojie commented Aug 27, 2023 via email

【第16章强化学习】待推导或待解析公式征集+答疑专区 #75

【第16章强化学习】待推导或待解析公式征集+答疑专区 #75

Comments

Sm1les commented Jul 25, 2019

fishfishfishfishfish commented Aug 9, 2019 • edited

Sm1les commented Aug 9, 2019

fishfishfishfishfish commented Aug 10, 2019

MrBigFan commented Aug 10, 2019

fishfishfishfishfish commented Aug 10, 2019

fishfishfishfishfish commented Aug 10, 2019

MrBigFan commented Aug 10, 2019

MrBigFan commented Aug 10, 2019

fishfishfishfishfish commented Aug 10, 2019

MrBigFan commented Aug 19, 2019

Laqw commented Aug 19, 2019

fishfishfishfishfish commented Aug 19, 2019

fishfishfishfishfish commented Aug 19, 2019

Laqw commented Aug 19, 2019

ZinYY commented Jul 16, 2020

MrBigFan commented Jul 21, 2020

MrBigFan commented Jul 21, 2020

yllgl commented Feb 8, 2021

4fee8fea commented May 25, 2021

rikonaka commented Jul 19, 2021

archwalker commented Aug 2, 2021

ChenZQ-nano commented Oct 14, 2021 • edited

TangJiakai commented Nov 11, 2021

Jian-Yin-Shine commented Feb 21, 2022

chanforg commented Apr 8, 2022

hanxiDuan commented Apr 26, 2022

Sm1les commented Apr 26, 2022

huskyth commented Sep 25, 2022

48066 commented Aug 27, 2023

mrxiaojie commented Aug 27, 2023 via email

fishfishfishfishfish commented Aug 9, 2019 •

edited

ChenZQ-nano commented Oct 14, 2021 •

edited