Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

【第16章强化学习】待推导或待解析公式征集+答疑专区 #75

Open
Sm1les opened this issue Jul 25, 2019 · 30 comments
Open

Comments

@Sm1les
Copy link
Contributor

Sm1les commented Jul 25, 2019

在这里,你可以:
1.评论留下西瓜书第16章你觉得需要补充推导细节或者解析的公式编号,我们看到后会尽快进行补充;
2.评论留下你对南瓜书第16章里相关内容的疑问,我们看到后会尽快进行答疑。

@fishfishfishfishfish
Copy link

fishfishfishfishfish commented Aug 9, 2019

想问下,16章第二节,书第373页中讲的“T步累积奖赏”和“γ折扣累计奖赏”的两条式子要怎么理解呢?
image

@Sm1les
Copy link
Contributor Author

Sm1les commented Aug 9, 2019

@fishfishfishfishfish 同学你好,我代16章的主要贡献者回答一下你:“奖赏是对策略的每次平均反馈求和,平均有两种,一种是算术平均,对应T步累计,另一种是加权平均,对应γ折扣累计”

@fishfishfishfishfish
Copy link

@Sm1les 谢谢您的回答,但我还是不太清楚。追问一下,为什么E里面,一个是求和到T,一个是求和到正无穷呢?“T步累计奖赏”是不是只适用于那种步数是固定的游戏呢?

@MrBigFan
Copy link
Contributor

@Sm1les 谢谢您的回答,但我还是不太清楚。追问一下,为什么E里面,一个是求和到T,一个是求和到正无穷呢?“T步累计奖赏”是不是只适用于那种步数是固定的游戏呢?

同学您好,我是负责16章的同学,r折扣是理论上从r^0累计到r^无穷,而r是属于(0,1),所以每次累计后,奖赏权重在降低,r^无穷 = 0,可以这样理解:对比T步累计奖赏,r折扣中的最后一些步由于权重很低所以可以忽略不计,但因为要严谨公式上表达还是累计到无穷步。(从某一步开始以后的累计,对整个奖赏作用很微小,可以参考高数中求极限的思想理解。)从极限的角度思考的话,T步累计也可以用于无穷步的游戏(前提是存在无穷步的游戏),只不过这里的极限是常数极限。

@fishfishfishfishfish
Copy link

@MrBigFan 非常感谢!为什么会有这两种方法呢,“T步累积”还比较好理解,但是"γ折累积"为什么是越到后面奖赏权重越低呢?

@fishfishfishfishfish
Copy link

再问个问题,16.3.1策略评估的时候,计算值函数V使用的π是概率表示π(x,a),表示以一定概率采取动作,但是在16.3.2策略改进时,π又变成了确定性表示π(x),表示看到状态x就采取对应动作,为什么这两个部分对π的描述不一致呢?

@MrBigFan
Copy link
Contributor

@MrBigFan 非常感谢!为什么会有这两种方法呢,“T步累积”还比较好理解,但是"γ折累积"为什么是越到后面奖赏权重越低呢?

同学您好,r折扣累计奖赏的每一步是基于前一步反馈得到的信息,当然每一步的学习效率是逐渐减小的(后一步学习的信息很难得到像前一步学习一样多的信息,最多100%)所以权重也是逐渐减小的。

@MrBigFan
Copy link
Contributor

再问个问题,16.3.1策略评估的时候,计算值函数V使用的π是概率表示π(x,a),表示以一定概率采取动作,但是在16.3.2策略改进时,π又变成了确定性表示π(x),表示看到状态x就采取对应动作,为什么这两个部分对π的描述不一致呢?

16.3.1是策略评估,当然和采取动作的概率有关,但16.3.2是策略改进,是对已经形成的(近似)最优策略更新,就变成了确定性表示。

@fishfishfishfishfish
Copy link

感谢~累计奖赏的问题大概懂了。但是π的问题还不是很懂,两个不同的表示在计算时不会有问题吗,下面确定性的π怎么代到上面概率性的π里呀
image

@MrBigFan
Copy link
Contributor

感谢~累计奖赏的问题大概懂了。但是π的问题还不是很懂,两个不同的表示在计算时不会有问题吗,下面确定性的π怎么代到上面概率性的π里呀

同学你好,最近才结束回复你,确定性也是一种概率,可以代进去

@Laqw
Copy link

Laqw commented Aug 19, 2019

3fb4031aca4c09d641ca70f7460dc0a

请问南瓜书中强化学习16.8公式的推导这一步是怎么从上一步推导出来的啊?可以说说具体吗?

@fishfishfishfishfish
Copy link

@Laqw 同学你好,这是我前几天推到16.7和16.8的笔记,希望能帮到你。如果有错还请见谅
推导.pdf

@fishfishfishfishfish
Copy link

@MrBigFan 好的 谢谢~

@Laqw
Copy link

Laqw commented Aug 19, 2019

@fishfishfishfishfish 谢谢你的笔记

@ZinYY
Copy link

ZinYY commented Jul 16, 2020

image
这一步的等号感觉没什么道理吧?29考虑的是单步RL,31是多步RL的?

@MrBigFan
Copy link
Contributor

image
这一步的等号感觉没什么道理吧?29考虑的是单步RL,31是多步RL的?

你好,这个证明的解释是这样的,我们需要证明式子(31),对比式子(29),我们会不难发现只需要得到r_t+1的表达式就可以了。然后我们分析r_t+1这个表达式,含义就是第t+1步的奖赏,那就是状态x变化到x'的奖赏加上前面t步奖赏总和的γ折扣,所以我这里最后说r_t+1可以由γ折扣累积奖赏估计到,那这样就证明了公式(31)

@MrBigFan
Copy link
Contributor

image
这一步的等号感觉没什么道理吧?29考虑的是单步RL,31是多步RL的?

另外,至于公式(29)和(31),西瓜书上也有解释,这两个都是第t+1次采样的值函数。

@yllgl
Copy link

yllgl commented Feb 8, 2021

image
这一步的等号感觉没什么道理吧?29考虑的是单步RL,31是多步RL的?

另外,至于公式(29)和(31),西瓜书上也有解释,这两个都是第t+1次采样的值函数。
r_t+1这个表达式,含义就是第t+1步的奖赏,那就是状态x变化到x'的奖赏加上前面t步奖赏总和的γ折扣。

我也很难理解这个等式。第t+1步的奖赏为什么要加前面t步奖赏总和?又不是第t+1步的累积奖赏。还有,我也不理解Q_t+1(x,a)以γ折扣累积奖赏时代表的含义,是指把p378中的16.6式γ折扣累积奖赏的定义中的正无穷上限求和改成t+1上限求和就行了吗?

@4fee8fea
Copy link

image

您好!

对于等式(16.14), 我不理解为什么只考虑使得Q(x,a)在最优策略下取最大值对应的动作。

V(x)的计算过程,考虑了所有的动作a。为何此处可以只取其中的一个动作呢?

谢谢解答!

@rikonaka
Copy link

图片
@fishfishfishfishfish 请问一下这个p代表什么意思,然后如何通过这个p得出下面的公式

@archwalker
Copy link
Member

image

您好!

对于等式(16.14), 我不理解为什么只考虑使得Q(x,a)在最优策略下取最大值对应的动作。

V(x)的计算过程,考虑了所有的动作a。为何此处可以只取其中的一个动作呢?

谢谢解答!

你好,抱歉没有注意的你的问题,这是因为式16.14限制了该累计奖赏是最优的,因此需要取能够使得累计奖赏达到最优的动作。

@ChenZQ-nano
Copy link

ChenZQ-nano commented Oct 14, 2021

请问能否给出在T步累积奖赏下的16.16公式的证明?西瓜书中公式16.14并没有严格的数学证明(您给上一位同学的回答似乎不严谨,尤其是对于T步累积奖赏的值函数而言,因为您没有给出“T步累积奖赏”下16.16的证明),在国外许多论坛也有很多有关16.14的提问,现在我可以在“折扣累积奖赏”的值函数定义下利用反证法证明16.14,过程如下(来自https://mathoverflow.net/questions/321701/proof-of-bellman-optimality-equation-for-finite-markov-decision-processes)。但是似乎没有办法在“T步累积奖赏”定义的值函数下证明16.16,我也因此没法证明16.14在“T步累积奖赏”下能否成立。另外在Sutton的书里,也没有使用“T步累积奖赏”推导Bellman最优公式,请问要如何解释这个问题?

截屏2021-10-14 下午2 15 55

截屏2021-10-14 下午2 16 12

@TangJiakai
Copy link

请问这里为什么还是x’呢?
image
换句话说,之前的x‘和这一行的x’肯定不能混用吧?这样写会不会太令人费解了。。

@Jian-Yin-Shine
Copy link
Contributor

图片
这等号觉得有什么道理吧?29步是单步RL,31是多步RL的?

你好,这个证明的解释是这样的,然后我们需要证明式子(31),对比式子(29),我们会不难发现只需要得到r_t+1的表达式就可以了。我们分析r_t+ 1这个表达式,表示状态就是第t+1步的奖赏,那是x变化到x的奖赏加上前面t步奖赏总和的γ折扣,所以我这里最后说r_t+1可以由γ折扣奖赏估计到,那这样就证明了公式(31)

我们分析r_t+ 1这个表达式,表示状态就是第t+1步的奖赏,即为$R_{x \to x'}^{a}$,哪里有后面的折扣累计奖励?

@chanforg
Copy link

chanforg commented Apr 8, 2022

image
请问这两行是怎么推导出来的,并且第一行的两个加和符号下面的x'应该分别是x'和x‘’吧,代表着时序2的状态和时序3的状态。期待回复。

@hanxiDuan
Copy link

建议把公式(16.4)修改一下
Q9F3~5SO SBE3)67 {AXE

@Sm1les
Copy link
Contributor Author

Sm1les commented Apr 26, 2022

@hanxiDuan 谢谢雨含,我们已收到,会尽快更新上去 :)

@huskyth
Copy link

huskyth commented Sep 25, 2022

请问这里为什么还是x’呢? image 换句话说,之前的x‘和这一行的x’肯定不能混用吧?这样写会不会太令人费解了。。
后来解决了吗

@48066
Copy link

48066 commented Aug 27, 2023

图片
这等号觉得有什么道理吧?29步是单步RL,31是多步RL的?

你好,这个证明的解释是这样的,然后我们需要证明式子(31),对比式子(29),我们会不难发现只需要得到r_t+1的表达式就可以了。我们分析r_t+ 1这个表达式,表示状态就是第t+1步的奖赏,那是x变化到x的奖赏加上前面t步奖赏总和的γ折扣,所以我这里最后说r_t+1可以由γ折扣奖赏估计到,那这样就证明了公式(31)

我们分析r_t+ 1这个表达式,表示状态就是第t+1步的奖赏,即为$R_{x \to x'}^{a}$,哪里有后面的折扣累计奖励?

同不懂。我也觉得r_{t+1}和R_{x \to x'}是一回事啊。请问有什么解释吗?

@mrxiaojie
Copy link

mrxiaojie commented Aug 27, 2023 via email

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests