LR原理深入理解

看似简单的LR其实要是捋起来估计也是SVM不相上下

LR公式推导

已知sigmoid函数

这个函数中的就是感知机,只不过将感知机的结果进行了分类而已
给定训练数据集,其中,可以应用极大似然估计法估计模型参数,从而得到逻辑斯谛回归模型
设:

表示标签为1的概率和标签为0的概率
其似然函数为:

其对数似然函数为:

使用梯度下降法,其损失函数为:

这里为惩罚项

对上式进行求导:

其中:

化简:

LR和线性回归

逻辑回归是在线性回归的基础上加上sigmoid函数

线性回归有两个重要特性需要注意:

  1. 线性回归的取值范围是(部分)实数域上的一段连续值
  2. 线性回归假设数据预测值是正态分布的

逻辑回归

  1. 取值范围是0/1两个离散值。
  2. 预测值实际上是伯努利分布的。

LR和最大熵

最大熵模型原理:
最大熵原理认为要选择的概率模型首先必须满足已有的事实,即约束条件。在没有更多信息的情况下,那些不确定的部分都是等可能的,最大熵原理通过熵的最大化来表示等可能性。
最大熵模型的定义
首先是给定一些约束条件,这里预测的模型需要满足
对于训练数据
定义一个输出值为1、0的特征函数:

我们可以通过训练集求得经验分布

f(x,y)关于经验分布的期望值为:

经验分布用条件概率展开,其中的条件概率就为要训练的模型,如果两者等价,说明模型能够获取到训练数据中的信息:

即:

最大熵模型的优化问题:

将其改写为最小值问题:

接下来就是用拉格朗日求解了
求解结果为:

其中 归一化因子,为特征函数, 为特征函数的权重。最后求w使得最大的模型就是最大熵模型

从最后的结果来看,每条输入数据会被表示成一个n维向量,可以看成n个特征。而模型中的每一类都有n个权重,k个类就有k个n维的向量,然后每条数据分别和这每类特征进行相乘再经过softmax,表示这条数据被分到这一类的概率。

再来看LR和最大熵的联系:
定义特征函数,其中g(x)为提取出每个x的特征,输出x特征向量:

将以上特征函数代入到之前求出的最大熵模型中:

上下同时除以 得到等式:

同理推导:

发现逻辑回归其实就是最大熵模型在y=1时抽取x的特征的一种情况

n问LR

  1. LR中为什么要使用sigmoid?
  2. LR处理的特征是离散的还是连续的,
    LR处理的特征是离散的还是连续的?(连续的);离散化,会有什么影响吗,比如一个特征取值0-1,需要离散化吗?(又是一脸蒙蔽!!!离散化对于树模型来说,应该是比较好的,但是LR,应该不用吧,我没有用过,哎,菜啊);好,我们想想树是怎么做的,CART对于连续特征,也是二分的,如果我们先做好离散这件事,是不是会更好一点,对于LR来说,也是一样,是会有一定提升的。(没有太理解,想想也是吧,一个特征挤在0-1,可能造成的区分性没有那么明显,而离散化之后,加强了特征对于数据的区分度,不知道这么理解对不对,有大佬的话,不吝赐教)

参考

1.统计学习方法
2.如何理解最大熵模型里面的特征
3.最大熵模型
4.

如果觉得有帮助,给我打赏吧!