LR公式推导
已知sigmoid函数
这个函数中的就是感知机,只不过将感知机的结果进行了分类而已
给定训练数据集,其中,可以应用极大似然估计法估计模型参数,从而得到逻辑斯谛回归模型
设:
表示标签为1的概率和标签为0的概率
其似然函数为:
其对数似然函数为:
使用梯度下降法,其损失函数为:
这里为惩罚项
对上式进行求导:
其中:
化简:
LR和线性回归
逻辑回归是在线性回归的基础上加上sigmoid函数
线性回归有两个重要特性需要注意:
- 线性回归的取值范围是(部分)实数域上的一段连续值
- 线性回归假设数据预测值是正态分布的
逻辑回归
- 取值范围是0/1两个离散值。
- 预测值实际上是伯努利分布的。
LR和最大熵
最大熵模型原理:
最大熵原理认为要选择的概率模型首先必须满足已有的事实,即约束条件。在没有更多信息的情况下,那些不确定的部分都是等可能的,最大熵原理通过熵的最大化来表示等可能性。
最大熵模型的定义
首先是给定一些约束条件,这里预测的模型需要满足
对于训练数据
定义一个输出值为1、0的特征函数:
我们可以通过训练集求得经验分布和
f(x,y)关于经验分布的期望值为:
经验分布用条件概率展开,其中的条件概率就为要训练的模型,如果两者等价,说明模型能够获取到训练数据中的信息:
即:
最大熵模型的优化问题:
将其改写为最小值问题:
接下来就是用拉格朗日求解了
求解结果为:
其中 归一化因子,为特征函数, 为特征函数的权重。最后求w使得最大的模型就是最大熵模型
从最后的结果来看,每条输入数据会被表示成一个n维向量,可以看成n个特征。而模型中的每一类都有n个权重,k个类就有k个n维的向量,然后每条数据分别和这每类特征进行相乘再经过softmax,表示这条数据被分到这一类的概率。
再来看LR和最大熵的联系:
定义特征函数,其中g(x)为提取出每个x的特征,输出x特征向量:
将以上特征函数代入到之前求出的最大熵模型中:
上下同时除以 得到等式:
同理推导:
发现逻辑回归其实就是最大熵模型在y=1时抽取x的特征的一种情况
n问LR
- LR中为什么要使用sigmoid?
- LR处理的特征是离散的还是连续的,
LR处理的特征是离散的还是连续的?(连续的);离散化,会有什么影响吗,比如一个特征取值0-1,需要离散化吗?(又是一脸蒙蔽!!!离散化对于树模型来说,应该是比较好的,但是LR,应该不用吧,我没有用过,哎,菜啊);好,我们想想树是怎么做的,CART对于连续特征,也是二分的,如果我们先做好离散这件事,是不是会更好一点,对于LR来说,也是一样,是会有一定提升的。(没有太理解,想想也是吧,一个特征挤在0-1,可能造成的区分性没有那么明显,而离散化之后,加强了特征对于数据的区分度,不知道这么理解对不对,有大佬的话,不吝赐教)
参考
1.统计学习方法
2.如何理解最大熵模型里面的特征
3.最大熵模型
4.