是独立同分布(i.i.d. , Independent and identical distribution)的一组抽样,。我们另有模型,且。MLE 是一个用来估计参数取值的方法,它旨在寻找一个最优的,使得最大化。也就是说,在参数化下,训练集出现的概率会是最大的。那么MLE对的估计方法如下:
最后这一行所优化的函数被称为Negative Log Likelihood (NLL)
cross entropy loss本质就是MLE
还是以抛硬币为例,最大似然估计在我的理解下就是,在不断抛硬币的次数充分大时,可以观测到事件发生的频率,然后以这个频率直接求得的值。而如果是MAP则是去调整你的先验概率。
MAP for Discrete Random Variable
Maximum A Posteriori, MAP是贝叶斯学派常用的估计方法
同样的,假设数据是 i.i.d. 的一组抽样,。那么 MAP 对的估计方法可以如下推导:
注意其实就是 NLL,所以 MLE 和 MAP 在优化时的不同就是在于先验项。现在我们来研究一下这个先验项,假定先验是一个高斯分布,即
那么
至此,我们可知在 MAP 中使用一个高斯分布的先验等价于在 MLE 中采用 L2 的 regularization
因此,从机器学习的角度来看,MAP可以看作是MLE增加了一个关于参数的先验分布的正则项有两点值得注意
- 随着数据量的增加,参数分布会越来越向数据靠拢,先验知识的影响力会越来越小
- 如果先验是uniform distribution,则贝叶斯方法等价于频率方法。因为直观上来讲,先验是uniform distribution本质上表示对事物没有任何预判
Reference
- 聊一聊机器学习的MLE和MAP:最大似然估计和最大后验估计 - 知乎 (zhihu.com)
- 机器学习方法—统计:MLE与MAP - 知乎 (zhihu.com)