LOADING

加载过慢请开启缓存 浏览器默认开启

MLE和MAP:最大似然估计和最大后验估计

前言

学了这么久机器学习,结果连MLE和MAP都不是特别清楚,代表基础很不扎实,十分惭愧。


我们知道有两大学派,分为频率学派和贝叶斯学派,他们对世界认知有本质不同:

频率学派的核心观点是:

  • 世界是确定的,存在一个固定的真实状态(本体)。
  • 这个真实状态有一个固定的真值,不会改变。
  • 我们的目标是通过观察和实验来发现或估计这个真值。
  • 他们关注的是长期频率,即如果重复同一实验无限多次,结果会收敛到真实值。

例如,如果我们想知道一枚硬币正面朝上的概率,频率学派会认为这个概率是一个固定的值(比如0.5),我们的任务就是通过大量抛掷来估计这个真实概率。

而贝叶斯学派的核心观点是:

  • 世界是不确定的,或者说我们对世界的认知是不确定的。
  • 我们对世界有一些初始的判断或信念,这称为先验知识(Prior)。
  • 通过观察新的数据,我们会更新这些初始判断,得到后验知识(Posterior)。
  • 目标是找到最能描述世界的概率分布,而不是一个固定的真值。

还是以抛硬币为例,贝叶斯学派可能会从一个初始猜测开始(比如认为正面概率是0.5),然后随着观察到更多的抛掷结果,不断调整这个概率估计。

以下是两个学派常用的估计方法

  • 频率学派 - Frequentist - Maximum Likelihood Estimation (MLE,最大似然估计)
  • 贝叶斯学派 - Bayesian - Maximum A Posteriori (MAP,最大后验估计)

MLE for Discrete Random Variable

Maximum Likelihood Estimation, MLE是频率学派常用的估计方法

假设是独立同分布(i.i.d. , Independent and identical distribution)的一组抽样,。我们另有模型,且。MLE 是一个用来估计参数取值的方法,它旨在寻找一个最优的,使得最大化。也就是说,在参数化下,训练集出现的概率会是最大的。那么MLE对的估计方法如下:

最后这一行所优化的函数被称为Negative Log Likelihood (NLL)

cross entropy loss本质就是MLE

还是以抛硬币为例,最大似然估计在我的理解下就是,在不断抛硬币的次数充分大时,可以观测到事件发生的频率,然后以这个频率直接求得的值。而如果是MAP则是去调整你的先验概率。

MAP for Discrete Random Variable

Maximum A Posteriori, MAP是贝叶斯学派常用的估计方法

同样的,假设数据是 i.i.d. 的一组抽样,。那么 MAP 对的估计方法可以如下推导:

注意其实就是 NLL,所以 MLE 和 MAP 在优化时的不同就是在于先验项。现在我们来研究一下这个先验项,假定先验是一个高斯分布,即

那么

至此,我们可知在 MAP 中使用一个高斯分布的先验等价于在 MLE 中采用 L2 的 regularization

因此,从机器学习的角度来看,MAP可以看作是MLE增加了一个关于参数的先验分布的正则项有两点值得注意

  • 随着数据量的增加,参数分布会越来越向数据靠拢,先验知识的影响力会越来越小
  • 如果先验是uniform distribution,则贝叶斯方法等价于频率方法。因为直观上来讲,先验是uniform distribution本质上表示对事物没有任何预判

Reference

  1. 聊一聊机器学习的MLE和MAP:最大似然估计和最大后验估计 - 知乎 (zhihu.com)
  2. 机器学习方法—统计:MLE与MAP - 知乎 (zhihu.com)