当前位置：首页 > 编程日记 > 正文

深度学习中的最大似然估计简介

编程日记 2024-12-21 05:10:00

统计领域为我们提供了很多工具来实现机器学习目标，不仅可以解决训练集上的任务，还可以泛化。例如参数估计、偏差和方差，对于正式地刻画泛化、欠拟合和过拟合都非常有帮助。

点估计：点估计试图为一些感兴趣的量提供单个”最优”预测。一般地，感兴趣的量可以是单个参数，或是某些参数模型中的一个向量参数，但是也有可能是整个函数。点估计也可以指输入和目标变量之间关系的估计。我们将这种类型的点估计称为函数估计。

函数估计：有时我们会关注函数估计(或函数近似)。这时我们试图从输入向量x预测变量y。我们假设有一个函数f(x)表示y和x之间的近似关系。例如，我们可能假设y=f(x)+ε,其中ε是y中未能从x预测的一部分。在函数估计中，我们感兴趣的是用模型估计去近似f。

偏差：估计的偏差被定义为：

均值的标准差在机器学习实验中非常有用。我们通常用测试集样本的误差均值来估计泛化误差。测试集中样本的数量决定了这个估计的精确度。中心极限定理告诉我们均值会接近一个高斯分布，我们可以用标准差计算出真实期望落在选定区间的概率。

权衡偏差和方差以最小化均方误差：偏差和方差度量着估计量的两个不同误差来源。偏差度量着偏离真实函数或参数的误差期望。而方差度量着数据上任意特定采样可能导致的估计期望的偏差。

均方误差(mean squared error, MSE)：

MSE度量着估计和真实参数θ之间平方误差的总体期望偏差。MSE估计包含了偏差和方差。偏差和方差的关系和机器学习容量、欠拟合和过拟合的概念紧密相联。用MSE度量泛化误差(偏差和方差对于泛化误差都是有意义的)时，增加容量会增加方差，降低偏差。

一致性：一致性保证了估计量的偏差会随数据样本数目的增多而减少。然而，反过来是不正确的。

考虑一组含有m个样本的数据集X={x⁽¹⁾,…,x^(m)},独立地由未知的真实数据生成分布p_data(x)生成。令p_model(x;θ)是一族由θ确定在相同空间上的概率分布。换言之，p_model(x; θ)将任意输入x映射到实数来估计真实概率p_data(x)。

对θ的最大似然估计被定义为：

最大似然估计最吸引人的地方在于，它被证明当样本数目m→∞时，就收敛率而言是最好的渐进估计。

在合适的条件下，最大似然估计具有一致性，意味着训练样本数目趋向于无穷大时，参数的最大似然估计会收敛到参数的真实值。这些条件是：

(1)、真实分布p_data必须在模型族p_model(•;θ)中。否则，没有估计可以还原p_data.

(2)、真实分布p_data必须刚好对应一个θ值。否则，最大似然估计恢复出真实分布p_data后，也不能决定数据生成过程使用哪个θ。

在统计学中，最大似然估计(Maximum likelihood estimation, MLE)，也称为最大概似估计，是用来估计一个概率模型(概率模型是用来描述不同随机变量之间关系的数学模型，通常情况下刻画了一个或多个随机变量之间的相互非确定性的概率关系)的参数的一种方法。

最大似然估计的原理：给定一个概率分布D，已知其概率密度函数(连续分布)或概率质量函数(离散分布)为f_D,以及一个分布参数θ，我们可以从这个分布中抽出一个具有n个值的采样X₁,X₂,…,X_n，利用f_D计算出概率：P(x₁,x₂,…,x_n)=f_D(x₁,…,x_n|θ)。

但是，我们可能不知道θ的值，尽管我们知道这些采样数据来自于分布D。那么我们如何才能估计出θ呢？一个自然的想法是从这个分布中抽出一个具有n个值的采样X₁,X₂,…,X_n，然后用这些采样数据来估计θ。

一旦我们获得X₁,X₂,…,X_n,我们就能求得一个关于θ的估计。最大似然估计会寻找关于θ的最可能的值(即，在所有可能的θ取值中，寻找一个值使这个采样的”可能性”最大化)。

要在数学上实现最大似然估计法，我们首先要定义似然函数：lik(θ)= f_D(x₁,…,x_n|θ)，并且在θ的所有取值上通过令一阶导数等于零，使这个函数取得最大值。这个使可能性最大的θ’值即称为θ的最大似然估计。

注意：这里的似然函数是指x ₁,…,x _n不变时，关于θ的一个函数；最大似然估计函数不一定是惟一的，甚至不一定存在。

以上内容主要摘自：《深度学习中文版》和维基百科

GitHub：https://github.com/fengbingchun/NN_Test

https://www.dkcj.cn/info/32751.html

深度学习中的最大似然估计简介

相关文章：

简单粗暴上手TensorFlow 2.0，北大学霸力作，必须人手一册！

常见运维漏洞-Rsync-Redis

zabbix笔记

C++/C++11中头文件algorithm的使用

js filter 用法

每30秒学会一个Python小技巧，GitHub星数4600+

Nginx自定义模块编写：根据post参数路由到不同服务器

深度学习中的贝叶斯统计简介

少走弯路：强烈推荐的TensorFlow快速入门资料（可下载）

有状态bean与无状态bean

从Developer Removed From Sale 回到可下载状态的方法

朴素贝叶斯分类器简介及C++实现(性别分类)

你当年没玩好的《愤怒的小鸟》，AI现在也犯难了

msf反弹shell

mysql 5.5半同步复制功能部署

Windows7/10上配置OpenCV3.3.0-Python3.6.2操作步骤

manage.py命令

图灵奖得主Bengio再次警示：可解释因果关系是深度学习发展的当务之急

解决jQuery不同版同时引用的冲突

TensorFlow中的计算图

java设计模式-适配器模式

Ubuntu 14.04 64位上安装Valgrind 3.13.0 操作步骤

粗谈Android中的对齐

OpenCV3.3中逻辑回归(Logistic Regression)使用举例

多数编程语言里的0.1+0.2≠0.3?

iOSSharing #9 | 2019-05-19

分表处理（三）

逻辑回归(Logistic Regression)简介及C++实现

CVPR 2019论文阅读：Libra R-CNN如何解决不平衡对检测性能的影响？

实现nginx上配置免费证书Let's Encrypt