LOADING

加载过慢请开启缓存 浏览器默认开启

变分推理(variational inference)

  1. 问题定位

    变分推理是一种确定式的(deterministic)近似推理(approximate inference)方法。近似推理简单地说就是一种用来近似一个计算复杂(intractable)的分布或者至少获得目标分布的一些统计量(statistics)的方法。VAE的底层就基于变分推理。

    在变分推理中通常我们关心的分布是某个概率模型隐变量(latent variables)的后验(posterior)分布,其中是隐变量而是被观测到的数据。注意这个隐变量既可以是模型里要被估计的参数,也可以是用于模型选择的某个参数。为什么关心的是一个后验呢?最主要的原因是因为后验与预测化较为关键。先验、一般看到先给定的简单分布,而联合分布(joint distribution)根据图模型(graph model)很容易求出。而利用贝叶斯公式

    求后验分布时,分母里的那个积分有时候会很棘手,因为无法穷尽所有隐变量可能

  1. 核心思想

    变分推理的核心想法是,用一个更简单的、容易得到的分布来近似。那么就有两个问题:1. 这个更简单的分布函数形式是什么?2. 如何调节中的参数使它足以近似后验?

    1. 对于问题1,通常我们会给增加一些限制,比如假设中某些变量是相独立的,称为因子化变分(factored variational)方法。更极端的可以直接假设是某种具体的分布。显而易见的,假设越强,模型的误差通常就更大。当然我们可以调整现在大家最喜欢的,(几乎)可以近似任意分布的神经网络来表达,在VAE中就是这么做的。

    2. 对于问题2,我们可以最小化的KL散度,或者交叉熵之类的分布距离度量。

    比如我们假设L是此空间上的距离函数,Q是空间中的一个概率分布族,则就是要找到的离最近的替代分布

    这个思路是没问题的,可是现在我们并不知道具体长什么样,不然也不用近似这个分布了。变分推理使用了一种替代方法去巧妙地解决方法,这种方法利用了自由能(free-energy),自由能这个名字来源物理,后来自由能也被部分机器学习社区的人称为“证据因子下界”(ELBO, evidence lower bound)

  2. ELBO

    当我们取L为KL散度时,这个问题变成Variational Bayes (VB) 问题,我们的目标如下

    展开KL项可得

    我们现在不知道分布怎么办,我们先单独看一下KL项

    此时,我们把前两项称为-ELBO(Evidence Lower Bound)。这里是负的。

    那么可知关于为:

    我们再观察(其为常数,因为是关于数据集本身的统计信息,我们称之为Evidence):

    因为等式左边是常数,目标为最小化KL项,那么可以转换为最大化,即

    实际计算中一般按照如下计算

    那为什么叫Evidence Lower Bound呢,因为KL散度始终大于等于0,因此有下列不等式

    ELBO其实就是数据Evidence的下界。

Reference

  1. 变分推理(variational inference) - 知乎 (zhihu.com)
  2. 变分推断之傻瓜式推导ELBO - 知乎 (zhihu.com)