LR原理深入理解

看似简单的LR其实要是捋起来估计也是SVM不相上下

LR公式推导

已知sigmoid函数

$h(x)=\frac{1}{1+e^{-wx}}$

这个函数中的 $-wx$ 就是感知机，只不过将感知机的结果进行了分类而已
给定训练数据集 $T={(x_1,y_1),(x_2,y_2),...}$ ，其中 $x_i \in R^n,y_i \in \{0,1\}$ ，可以应用极大似然估计法估计模型参数，从而得到逻辑斯谛回归模型
设：

$P(Y=1|x)=h(x),\,\,\,\,P(Y=0|x)=1-h(x)$

表示标签为1的概率和标签为0的概率
其似然函数为：

$\prod_{i=1}^{N}[h(x_i)]^{y_i}[1-h(x_i)]^{1-y_i}$

其对数似然函数为：

$L(w)=\sum_{i=1}^{N}[y_i logh(x_i)+(1-y_i)log(1-h(x_i))]\\ =\sum_{i=1}^{N}[y_ilog\frac{h(x_i)}{1-h(x_i)}+log(1-h(x_i))]\\ =\sum_{i=1}^{N}[y_i(wx_i)-log(1+exp(wx_i))]$

使用梯度下降法，其损失函数为：

$L(w)=-\frac{1}{N}\sum_{i=1}^{N}[y_i logh(x_i)+(1-y_i)log(1-h(x_i))]+\frac{1}{2}\lambda ||w||^2$

这里 $||w||^2$ 为惩罚项

对上式进行求导：

$\frac{\partial l(w)}{\partial w} =-\frac{1}{N} \sum_{i=1}^{N}(\frac{y^{i}}{h(x^{i})} \frac{\partial h(x_{i})}{\partial w}+\frac{1-y^{i}}{1-h(x_{i})}\frac{\partial h(x^{i})}{\partial w}(-1))+\lambda w \\ =-\frac{1}{N} \sum_{i=1}^{N}( \frac{\partial h(x^{i})}{\partial w} (\frac{y^{i}}{h(x^{i})}-\frac{1-y^{i}}{1-h(x^{i})} ))+\lambda w \\ =-\frac{1}{N}\sum_{i=1}^{N}(\frac{\partial h(x^{i})}{\partial w} (\frac{y^{i}(1-h(x^{i}))+ (y^{i}-1)h(x^{i})}{h(x^{i})(1-h(x^{i}))})+\lambda w \\ =-\frac{1}{N}\sum_{i=1}^{N}(\frac{\partial h(x^{i})}{\partial w}(\frac{y^{i}-h(x^{i})}{h(x^{i})(1-h(x^{i}))}))+\lambda w$

其中：

$\frac{\partial h(x^{i})}{\partial w} = h(x^{i})(1-h(x^{i}))x^{j}$

化简:

$\bigtriangledown_{w}l(w)=\frac{\partial l(w)}{\partial(w)}=-\frac{1}{N}\sum_{i=1}^{N}(y^{i}-h(x^{i}))x^{j}+\lambda w$

LR和线性回归

逻辑回归是在线性回归的基础上加上sigmoid函数

线性回归有两个重要特性需要注意：

线性回归的取值范围是（部分）实数域上的一段连续值
线性回归假设数据预测值是正态分布的

逻辑回归

取值范围是0/1两个离散值。
预测值实际上是伯努利分布的。

LR和最大熵

最大熵模型原理：
最大熵原理认为要选择的概率模型首先必须满足已有的事实，即约束条件。在没有更多信息的情况下，那些不确定的部分都是等可能的，最大熵原理通过熵的最大化来表示等可能性。
最大熵模型的定义
首先是给定一些约束条件，这里预测的模型需要满足
对于训练数据 $\{(x^{(1)}, y^{(1)}),(x^{(2)}, y^{(2)})...(x^{(i)}, y^{(i)})\}$
定义一个输出值为1、0的特征函数:

$f(x,y) = \begin{cases} 1, \,\, 如果x,y满足一定条件\\ 0, \,\, 否则 \end{cases}$

我们可以通过训练集求得经验分布 $p'(x,y)$ 和 $p'(x)$

$p'(X=x,Y=y)=\frac{v(X=x,Y=y)}{N}\\ p'(X=x)=\frac{v(X=x)}{N}$

f(x,y)关于经验分布 $p‘(x,y)$ 的期望值为:

$E_{p'}(f) = \sum_ {x,y} p’(x,y)f(x,y)$

经验分布 $p'(x,y)$ 用条件概率展开，其中的条件概率就为要训练的模型，如果两者等价，说明模型能够获取到训练数据中的信息：

$p'(x,y)=p'(x)p(y|x)\\ E_{p}(f)=\sum_{x,y}p'(x)p(y|x)f(x,y)$

即：

$E_{p}(f)=E_{p'}(f)$

最大熵模型的优化问题：

$max \,\,\,\,H(y|x) = -\sum_{x,y} p'(x)p(y|x) \log (p(y|x)) \\ \{ E{_p}(f{_1}) = E_{p^{'}}(f{_1}),.E{_p}(f{_2}) = E_{p^{'}}(f{_2})...E{_p}(f{_i}) = E_{p^{'}}(f{_i})\}\\ \sum_yp(y|x)=1$

将其改写为最小值问题：

$min \,\,\,\,-H(y|x) = \sum_{x,y} p'(x)p(y|x) \log (p(y|x)) \\ s.t.\,\,\,\,E_p(f_i)-E_{p'}(f_i)=0,\,\,\,\,i=1,2,..n\\ \sum_yp(y|x)=1$

接下来就是用拉格朗日求解了
求解结果为：

$\\ \begin{cases} P(y|x) = \frac {exp(\sum_{i=1}^n w{_i} f(x,y))}{Z_{w}(x)} \\ Z_{w}(x) = \sum{_y} {exp(\sum_{i=1}^n w{_i} f(x,y))} \end{cases}$

其中 $Z{_w}$ 归一化因子， $f{_i}(x,y)$ 为特征函数， $w{_i}$ 为特征函数的权重。最后求w使得 $P_w(y|x)$ 最大的模型就是最大熵模型

从最后的结果来看，每条输入数据会被表示成一个n维向量，可以看成n个特征。而模型中的每一类都有n个权重，k个类就有k个n维的向量，然后每条数据分别和这每类特征进行相乘再经过softmax，表示这条数据被分到这一类的概率。

再来看LR和最大熵的联系：
定义特征函数，其中g(x)为提取出每个x的特征,输出x特征向量:

$\\ \begin{cases} g(x) \ \ , y = 1 \\ 0 \ \ \ \ \ \ \ , y = 0 \end{cases}$

将以上特征函数代入到之前求出的最大熵模型中:

$\\ P(y=1|x) = \frac {exp( w{_i} g(x))} {exp( w{_i} g(x)) + exp(w{_i} * 0)}$

上下同时除以 $exp( w{_i} g(x))$ 得到等式:

$\\ P(y=1|x) = \frac {1} {1 + exp(-w{_i} g(x))}$

同理推导:

$\\ P(y=0|x) = \frac {exp( w{_i}0)} {exp( w{_i} g(x)) + exp(w{_i} * 0)} \\ P(y=0|x) = \frac {1} {exp( w{_i} g(x)) +1} \\ P(y=0|x) = 1 - p(y=1|x)$

发现逻辑回归其实就是最大熵模型在y=1时抽取x的特征的一种情况

n问LR

LR中为什么要使用sigmoid？
LR处理的特征是离散的还是连续的，
LR处理的特征是离散的还是连续的？（连续的）；离散化，会有什么影响吗，比如一个特征取值0-1，需要离散化吗？（又是一脸蒙蔽！！！离散化对于树模型来说，应该是比较好的，但是LR，应该不用吧，我没有用过，哎，菜啊）；好，我们想想树是怎么做的，CART对于连续特征，也是二分的，如果我们先做好离散这件事，是不是会更好一点，对于LR来说，也是一样，是会有一定提升的。（没有太理解，想想也是吧，一个特征挤在0-1，可能造成的区分性没有那么明显，而离散化之后，加强了特征对于数据的区分度，不知道这么理解对不对，有大佬的话，不吝赐教）

参考

1.统计学习方法
2.如何理解最大熵模型里面的特征
3.最大熵模型
4.