当前位置：首页 > 编程日记 > 正文

hung-yi lee_p11_逻辑回归

编程日记 2024-09-13 01:00:00

文章目录

- step1 Function Set
- step2 goodness of a function
- step3 Find the best function
- why not Logistic Regression + Square Error
- Discriminative v.s. Generative
- - 结论（判别模型的优势）
  - 解释-生成模型为何稍逊色
  - 生成模型的优势
- 多分类模型
- 逻辑回归的局限性
- - 死穴
  - 特征转化
  - 串联起逻辑回归模型
  - 类神经网络

step1 Function Set

要找的是一个几率，对应不同的类别
在这里插入图片描述
如果用高斯分布，该几率可以表示成sigma of z，其中z为

因此函数集也就是许许多多含有不同w,b的函数

图像化模型（图中z的表示错了）

逻辑回归与线性回归对比（线性回归是最基础的嘛）

step2 goodness of a function

假设有N笔数据组成的测试数据，每笔分属于某个类别
并假设测试数据的结果是刚才的概率生成函数产生的
在这里插入图片描述
注：这里的概率生成函数指的是

给定w和b，就可以算出概率生成函数产生以上N笔数据组成的测试数据的几率（最大似然函数-用来衡量找到的函数的好坏）

最有可能产生以上测试数据对应的w,b也就是能使得以上函数几率最大的w,b。记作w和b（最好的w和b）
在这里插入图片描述
想让计算更容易，把找最大化L函数的(w,b)转化为找最小化-lnL函数的(w,b)

为了统一每一项的表示，写成大sigma的形式，作符号上的转换
将类别1记作1，类别2记作0（图中y^标错了，应该是110）

上式就可以写成
在这里插入图片描述
最大似然函数也就可以写成

其中中括号内的两项其实是两个伯努利分布的交叉熵（假设有两个伯努利分布p和q）

p和q的cross entropy(交叉熵)就是下式

它的作用是衡量两个分布有多接近，当两个分布一模一样，交叉熵就是0

对比逻辑回归（左）和线性回归的损失函数，结果如下
问题来了，为何不像线性回归一样直接使用平方损失/均方差作为损失函数？（见第四部分why not Logistic Regression + Square Error）
在这里插入图片描述

step3 Find the best function

使用梯度下降找到最佳函数
数学计算具体见视频18分钟左右
总之，对求对数、取反后的最大似然函数求导后得到的结果如下
在这里插入图片描述
使用梯度下降更新参数的过程如下所示

向量w更新的快慢取决于三个量①学习率(自己定)②真实结果和求出结果的差距③取决于数据的

比较逻辑回归和线性回归更新参数的方式，发现一样的
唯一不同的是f结果的取值范围
在这里插入图片描述

why not Logistic Regression + Square Error

如果这么做了，会造成（以类别1为例）
训练结果离真实结果很近时，微分是0（合理）
训练结果离真实结果很远时，微分是0（不合理）
在这里插入图片描述
这就造成，逻辑回归模型如果使用均方差作为损失函数，并使用梯度下降靠近最优解，离目标很远时，一开始就卡住了（微分为0）

Discriminative v.s. Generative

判别模型（逻辑回归）和生成模型（分类）对比
①step1 函数集相同
在这里插入图片描述
不同的是找w和b的过程（判别模型是直接找的，生成模型要通过概率，即要先找sigma1 sigma2 covariance）

问题是，两种方式找到的w和b一样吗？
答案是否定的。也就是两种方法是相同的函数集，找到的函数却不同。
在逻辑回归里面没有分布假设，生成模型里面假设成高斯分布、伯努利分布……

结论（判别模型的优势）

哪种方式找出的w和b更好?
来看结果
二维难以分出胜负
在这里插入图片描述
七维判别模型的精度更高

解释-生成模型为何稍逊色

例：训练集中有13笔数据，当两个特征值都为1时，认为属于Class1，否则认为属于Class2
可以分别算出取自class1/class2的数据特征1/特征2的值为1的概率是 1 1 1/3 1/3
在这里插入图片描述
在测试集中，给一个已知特征1，2的值的数据，可以使用朴素贝叶斯算出其属于class1的概率

结果小于0.5，也就是认为该测试数据是属于class2。
究其根本，生成模型做了一些前提假设（脑补），它认为class2里面没出现(1,1)是因为取样取得不够多。
脑补到底好不好？通常不好，但当数据比较少时，可以很好

生成模型的优势

生成模型需要的数据量更小（因为有自己的假设）
可以忽视掉数据中的噪声（label本身有问题）
priors and class-dependent probabilities can be estimated from different sources.
先验概率和类独立概率可以来自不同来源
ex:语音识别这两部分就能分开考虑，所以整体上用的是生成模型

多分类模型

现在有三个类别分别对应3组参数
softmax-通过指数exp的方法将最大max放大了（增大了不同输入之间的差距3 1 -3 ->20 2.7 0.05）并且将最终的结果控制在了（0，1）
在这里插入图片描述
如下图，x是输入，y是由y1,y2,y3组成的输出。其中y和y^要能算交叉熵，都必须是概率分布

做出如下设定（好处是class1,2,3之间无谁跟谁更近）

之后就参照二分类，最小化交叉熵，找到最优函数。