Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

【第3章线性模型】待推导或待解析公式征集+答疑专区 #62

Open
Sm1les opened this issue Jul 25, 2019 · 54 comments
Open

Comments

@Sm1les
Copy link
Contributor

Sm1les commented Jul 25, 2019

在这里,你可以:
1.评论留下西瓜书第3章你觉得需要补充推导细节或者解析的公式编号,我们看到后会尽快进行补充;
2.评论留下你对南瓜书第3章里相关内容的疑问,我们看到后会尽快进行答疑。

@SunshineJZJ
Copy link

SunshineJZJ commented Sep 3, 2019

您好:
对于公式3.10
TIM图片20190903170811

我能不能把红色方框 看做一个整体M 先对M求导 然后求M对w的导数 这样可以吗?
计算是这样的 和书上的不一样 这是为什么?
TIM图片20190903170909

@Sm1les
Copy link
Contributor Author

Sm1les commented Sep 3, 2019

@SunshineJZJ 同学你好,请把你的详细推导过程发出来看一下

@SunshineJZJ
Copy link

SunshineJZJ commented Sep 3, 2019

您好:
TIM图片20190903184035

@Sm1les
Copy link
Contributor Author

Sm1les commented Sep 3, 2019

@SunshineJZJ 同学你好,西瓜书上的矩阵微分公式默认采用分母布局,所以你第2行的第一个等号后面的那两个偏导数的前后位置需要交换,理由参见打开这个链接https://en.wikipedia.org/wiki/Matrix_calculus#Vector-by-vector_identities
以后看到的表格的倒数第二个公式
image

@Sm1les
Copy link
Contributor Author

Sm1les commented Oct 4, 2019

@Requiemfan 同学你好,你截图部分下方的那句话有交代。

@Requiemfan
Copy link

Requiemfan commented Oct 5, 2019 via email

@ghost
Copy link

ghost commented Jan 12, 2020

你好:
QQ图片20200112150109

@Sm1les
Copy link
Contributor Author

Sm1les commented Jan 12, 2020

@zxcvs 同学你好,已经补充进去了,但是我建议你还是先自己动手试推一下再看,因为这两个公式的推导并不复杂。

@ghost
Copy link

ghost commented Jan 12, 2020 via email

@davidzhr
Copy link

还有专家在吗? 为什么 3.25 可以推导出 3.26. 没看明白。能帮忙解答一下吗

@Sm1les
Copy link
Contributor Author

Sm1les commented Jul 14, 2020

@davidzhr 同学你好,3.25是对数似然函数,3.26只是似然函数中的似然项而已,你是不明白3.26那个似然项为什么那么写吗?

@davidzhr
Copy link

是的, 前面假设了 P1, P0, 3.26 直接给出了一般化的公式, 我理解这个地方也只是 似然项的一个假设情况而已, 不知道对不对?

@Sm1les
Copy link
Contributor Author

Sm1les commented Jul 14, 2020

@davidzhr 是的,似然项本身就没有固定写法,你可以看我南瓜书里面额外给出了另一种似然项的写法,这两种写法都是对的。

@davidzhr
Copy link

谢谢, 看到了, 谢谢解答。

@davidzhr
Copy link

hi @Sm1les
刚看了3.27 的证明。
image

没看明白由y=1, y=0 的两式综合所得 3.27的, 反倒是下面一种情况的似然项, 是严格的数据推导得到 3.27.

@Sm1les
Copy link
Contributor Author

Sm1les commented Jul 14, 2020

@davidzhr 这个综合可得就是一个恒等变换,你把综合可得得到的式子里面的y_i分别取值为0和1你就会发现和上面那个式子是等价的。

@davidzhr
Copy link

好的, 谢谢

@dlmdlmacy
Copy link

您好!
请问根据式(3.45)如何求得的W的闭式解?在我的理解里不同的特征向量应该对应不同的特征值呀,那样等式3.45不就无法成立了吗?
谢谢!

@Sm1les
Copy link
Contributor Author

Sm1les commented Aug 16, 2020

@dlmdlmacy 3.45下面有句话,取N-1个最大的特征值对应的特征向量

@dlmdlmacy
Copy link

@dlmdlmacy 3.45下面有句话,取N-1个最大的特征值对应的特征向量

感谢您的回复!但我还是有一点不明白:

在我的理解里,这个求W的过程是将W看成几个列向量w1、w2...
然后问题分解为Sw^(-1)Sbw1=λ1w1、Sw^(-1)Sbw2=λ2w2……
所以W由Sw^(-1)*Sb的特征向量组成,不知道这样的理解是否准确?

如果按照这样理解,每一个列向量所对应的特征值都不相同,但是式(3.45)中只有一个λ,如何满足式(3.45)呢?

谢谢!

@Sm1les
Copy link
Contributor Author

Sm1les commented Aug 16, 2020

@dlmdlmacy 这个需要你参照3.37来理解,λ并不重要,我们求的w只关心方向,不关心大小

@dlmdlmacy
Copy link

@dlmdlmacy 这个需要你参照3.37来理解,λ并不重要,我们求的w只关心方向,不关心大小

好的,谢谢!

@Harvestning
Copy link

@Sm1les 您好,请问公式3.10如何得出的呀?

@Harvestning
Copy link

@Sm1les Sorry,是公式3.11

@Harvestning
Copy link

@Sm1les 谢谢,因为一个地方理解错误所以致错,已解决。

@Sm1les
Copy link
Contributor Author

Sm1les commented Feb 24, 2021

@Harvestning ok,解决了就好 :)s

@IMYR666
Copy link

IMYR666 commented Mar 2, 2021

a_aT

请问这个公式,结果为什么是a, 而不是aT,我参考的是:

uw

@Sm1les
Copy link
Contributor Author

Sm1les commented Mar 2, 2021

@IMYR666 同学你好,我写的a是列向量,你看的A是矩阵,此外,建议你参考 https://en.wikipedia.org/wiki/Matrix_calculus 这个看

@IMYR666
Copy link

IMYR666 commented Mar 2, 2021

@IMYR666 同学你好,我写的a是列向量,你看的A是矩阵,此外,建议你参考 https://en.wikipedia.org/wiki/Matrix_calculus 这个看

这里列向量和矩阵不一样吗?这是我理解的公式,能讲下为什么不对吗
at
另外我打开链接都是乱码,等了好久都是这样
wiki

@BeiChenJun
Copy link

BeiChenJun commented Mar 2, 2021 via email

@Sm1les
Copy link
Contributor Author

Sm1les commented Mar 2, 2021

@IMYR666 同学你好,你理解的是对的,我刚回答的不够严谨,把你截图里面的维度m设成1是可以的,你写出来的公式也是对的,之所以和我写的不同的原因在于我用的是分母布局,你用的是分子布局,西瓜书以及本书默认都用的分母布局;参考链接打开乱码的原因是需要“科学上网才能打开”,你留个邮箱,我可以发一份这个网页的pdf给你 :)s

@Sm1les
Copy link
Contributor Author

Sm1les commented Mar 2, 2021

@1875847202 同学你好,你的图好像没上传成功?

@IMYR666
Copy link

IMYR666 commented Mar 2, 2021

@IMYR666 同学你好,你理解的是对的,我刚回答的不够严谨,把你截图里面的维度m设成1是可以的,你写出来的公式也是对的,之所以和我写的不同的原因在于我用的是分母布局,你用的是分子布局,西瓜书以及本书默认都用的分母布局;参考链接打开乱码的原因是需要“科学上网才能打开”,你留个邮箱,我可以发一份这个网页的pdf给你 :)s

好的,邮箱:992047579@qq.com, 再问下分子布局,分母布局有什么区别吗,之前好像没听过,谢谢

@Sm1les
Copy link
Contributor Author

Sm1les commented Mar 2, 2021

@IMYR666 已发,这个区别建议百度“矩阵微分 分子布局 分母布局” :)s

@IMYR666
Copy link

IMYR666 commented Mar 2, 2021

@IMYR666 已发,这个区别建议百度“矩阵微分 分子布局 分母布局” :)s

好的,感谢大佬

@ChenZQ-nano
Copy link

请问对于3.45,为什么要选择最大的广义特征值呢,我认为只要是非零特征值都可以满足这个公式,比如我是不是可以选择特征空间维数最少的那个特征值,或者选择选择多个特征值。另外W中特征向量的选择有没有什么要求,W本身有N-1列,但却选择d‘
个向量,那么会有向量线性相关吧

@Sm1les
Copy link
Contributor Author

Sm1les commented Jun 18, 2021

@ChenZQ-nano 同学你好,选择N-1个最大的广义特征值是为了使得公式3.44这个优化目标达到最大值,原因我在近期的直播里面有讲(直播回放地址:https://www.bilibili.com/video/BV1Mh411e7VU?p=5 ,在广义瑞利熵那部分讲的)。W本身有N-1列表示选取N-1个向量,你的d'是从哪儿来的?

@Sm1les
Copy link
Contributor Author

Sm1les commented Jun 18, 2021

@ChenZQ-nano 严谨一点:不是选择N-1个最大的广义特征值,而是选择N-1个最大的广义特征值所对应的广义特征向量

@Harvestning
Copy link

您好,请问在P58页公式3.19下一行,为什么可以将y视为样本x作为正例的可能性?我无法找到两者的必然联系。

@Sm1les
Copy link
Contributor Author

Sm1les commented Aug 4, 2021

@Harvestning 这就是一个数学假设而已,你可以接受这个假设,也可以不接受

@Harvestning
Copy link

@Harvestning 这就是一个数学假设而已,你可以接受这个假设,也可以不接受

那这样的话,用对数几率回归作分类的话是很不严谨的。

@IianWang
Copy link

你好,有一个关于ω的问题,如果是对单样本(特征数量n>=2)进行拟合,我将ω理解为对应该样本的各个属性"权重"向量,维度等于n。
如果对于多样本,如图所示
image

如果有i个样本的话,难道不应该有i个ω吗?(每一个 x_i 有一个与之对应的 ω_i,看西瓜书上写的貌似像 i 个样本共用1个ω的样子,讲道理每个样本应该拟合一个特有的空间向量呀!实在困惑,是我哪里想错了吗?)

@Sm1les
Copy link
Contributor Author

Sm1les commented Aug 22, 2021

@IianWang 同学你好,w和样本个数无关,一个模型(也即f(x))对应一个w,你貌似对【模型】这个概念还没理解,建议再仔细看一下西瓜书第1章,或者看一下我在B站讲的第3章的视频,视频的开头我有举例子,视频地址:https://www.bilibili.com/video/BV1Mh411e7VU?p=2

@Adiolph
Copy link

Adiolph commented Dec 26, 2021

你好,请问式(3.38)中,要重新调整w使得(u_0-u_1)^T \dot w = \lambda的时候,岂不是破坏了原先的约束条件:w^T S_w w = 1吗?

@Sm1les
Copy link
Contributor Author

Sm1les commented Dec 26, 2021

@Adiolph 同学你好,这里你可以在求出w以后,再通过手动代值法调整lambda和w的大小来使得原先的约束条件成立,不过此时你会发现lambda是一个标量,且是我们不需要关心的,w这个向量你也只能去改变它的大小,而不能改变它的方向,而在线性判别分析这个问题中我们要求的也只是它的方向,它的大小无所谓,所以就没有必要再去为了严格满足原先的约束条件而去调整lambda和w的大小了,不知道你是否有看我的配套视频讲解,我在里面有详细交代,在此附上视频讲解的地址:https://www.bilibili.com/video/BV1Mh411e7VU?p=5

@Adiolph
Copy link

Adiolph commented Dec 27, 2021

@davidzhr 嗯嗯,我原先认为优化J时候,我们通过定义了约束条件使得问题变为了优化w^T S_b w。这样的话后面再改变约束的时候,岂不是让J != w^T S_b w了,那我们在优化w^T S_b w的时候,其实并不是在优化J。听了你的这段描述,我发现这样只不过让J变成了J = w^T S_b w / const,分母从1变成了另外一个不重要的常数。

之前没看视频,只看了文字推导,视频里头对广义瑞利商的介绍令人受益匪浅,现在这种问题已经可以用全新的角度(解特征向量)来理解了,感谢分享!

@zhaoyifengf
Copy link

zhaoyifengf commented Jan 10, 2022

在南瓜书瓜书中的3.45中,为什么不取最大的一个特征值对应的特征向量然后重复k列也就是其中w是最大的广义特征值对应的特征向量(这样会使目标函数更小),而要取前个最大特征值对应的特征向量?并且这种取法也没有满足QQ截图20220110165921中的约束。西瓜书多分类的LDA的形式与《模式分类》一书中的并不相同,《模式分类》中用的是行列式并不是是tr():

@zhaoyifengf
Copy link

救救孩子吧!谁能说一下LDA的标准形式和标准解法,看了很多文献和书籍都没找到这解是怎么得到的,每个文献上LDA的形式还不相同

@Adiolph
Copy link

Adiolph commented Jan 11, 2022

@zhaoyifengf 同学你好,我也是正在学习中,这里抛砖引玉,说一下我的理解:
我认为这个高维度的广义特征值问题应该是和相似变换有某种联系的。对于相似变换而言,变换矩阵里头的各个分量要是线性无关的,否则非对角会出现非零值。类似的,LDA中W的各个分量也需要是线性无关的。矩阵的trace和determine在相似变换中都是保持不变的,因此选择trace还是det都可以作为特征量。

@Link2Truth
Copy link

南瓜书里面的公式3-9
image
这里的增广矩阵内为什么没有i?我看西瓜书里面给出的是下面这样的
image
是不是写错了

@Sm1les
Copy link
Contributor Author

Sm1les commented May 8, 2022

@Link2Truth 同学你好,这里确实是漏掉了角标i,这就更正,感谢你的反馈 :)

@Maxwell-lx
Copy link

我来提供一个3.10的更简便求导法。方法采用了矩阵微分中,对标量函数的迹函数进行微分,得到对行向量求导的雅克比矩阵,转置后得到对列向量求导的梯度矩阵。参考张贤达的《矩阵分析与应用》第三章第2节。
image

@bghfcd19900
Copy link

bghfcd19900 commented Jun 9, 2022 via email

@suica
Copy link

suica commented Aug 14, 2023

typo: 3.4.5 广义征值应为广义特征值

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests