机器学习 | 线性模型
线性模型 (Linear Model):给定由
1. 线性回归
给定数据集
1.1. 单变量线性回归
对于
将其分别对
上面这个解看着很眼熟,其实就是我们高中就学过的最小二乘法了。
1.2. 多变量线性回归
对于多变量情形,为了式子简便,将
对于数据集,最右侧增加一列
标记也写成向量形式:
综上,我们要求的线性模型便是:
我们的目标是:
同样,将其对
在上面推导的第二行到第三行,用到了以下两个结论:
当
综上,学到的线性模型就是:
当
1.3 广义线性回归
当样本点的输入和输出不满足线性函数时,上面的线性回归方法就不能直接使用了。不过这个问题的解决办法我们高中也学过,即构造一个单调可微函数
这样就能解决输入空间到输出空间的非线性函数映射了。
例如若样本点满足
经过变换后,再套用之前的方法就能解决这个问题了。
2. 对数几率回归(逻辑斯谛回归)
上面的线性回归预测的是实值输出标记,如果我们求的问题是二分类问题的话,就得做一些调整。我们首先要找到一个函数,将一个实数转为 0/1 值,可以用的是单位阶跃函数:
不过这个函数不连续,对后面的计算会有很大的困扰,所以可以换成 Sigmoid 函数:
将其作为
将
可以得到:
这个情况不好用求导解决,所以用极大似然估计来估计
首先构造似然函数:
接下来要做的任务便是:
可用牛顿法求解:
3. 线性判别分析
线性判别分析的思想是,给定训练样本集,将样本投影到一个直线上,并希望同类样本尽可能近,异类样本尽可能远。得到该直线后,对于新样本,将其投影后根据其投影点的位置判别属于哪一类。图示如下:
图片来源:《机器学习》周志华
给定数据集
我们要求一条直线
首先,将样本点投影到直线
点
投影到向量 的投影点的大小为 ,下面是简单推导: 设
投影到向量 的投影点为 ,由投影的定义, 一定与 共线,则: 设
到 的连线为 ,由投影的定义, (或 )
综上,点
投影到向量 的投影点为:
如果我们只关心大小,不关心方向的话(因为方向一定和
一样):
我们的目标是同类样本尽可能近,异类样本尽可能远,对应到均值方差上就是类别间的均值距离
令:
则上式可以写为:
由于
用拉格朗日乘子法,构造拉格朗日函数求解:
其中倒数第二行为标量, 也为标量,由于我们不关心 的长度,因此这两个标量我们全部忽略。最后推导成最后一行的结果:
上面我们计算出了
由于我们的数据集的两种类别数量可能不相同,为了防止先验概率不等造成的干扰,可以对其做加权平均:
这样,我们就计算出来了分类边界
本文采用 CC BY-SA 4.0 许可,本文 Markdown 源码:Haotian-BiJi