公式:$g(z)=\frac{1}{1+e^{-z}}$
图像:
- y的值在0~1之间/这样的函数十分有利于进行二分类问题的处理
-
$g(z)=\frac{1}{1+e^{-z}}$ -
$h_{\theta}(x)=g(\theta^{T}x)$ -
所以:$h_{\theta}=\frac{1}{1+e^{\theta^{T}x}}$
-
$x$ 是输入/$\theta$是参数
- 假设数据是符合伯努利分布的
- 假设我们有训练数据/也就是说我们可以知道类别为1和0的概率
- 通过极大似然估计推导损失函数
- 把上述的两个公式合并/假设我们有数据的时候/那我们是知道y=1和y=0的后验概率的
- 通过极大似然估计法反推出${\theta}$
- n个样本的概率相乘/越大说明当前的${\theta}$越好
- 所以根据这个意思我们可以得到极大似然估计的公式
- 然后取对数/变成累加
- 现在是要取最大值/而我们平常的cost代价函数习惯是最小值/所以取负数写成代价函数的形式
- 也可以写成
- 梯度下降的迭代公式
$$ {\theta}{j} = {\theta}{j} - {\alpha}\frac{\partial J({\theta})}{\partial{\theta}_{j}} $$
- 再回代到梯度下降公式即可!
- 优点:
- 直接简单/容易解释/不同的特征的权重对最后模型的效果有直接的影响
- 除了简单的分类之外/还可以得到概率
- 缺点:
- 比较简单的模型难以拟合复杂的数据分布
https://zhuanlan.zhihu.com/p/28408516