LOADING

加载过慢请开启缓存 浏览器默认开启

KL散度

信息熵 | 相对熵 | 交叉熵 | KL散度 | KL Divergence

信息熵

假设我们需要将ABCD四个选项进行01编码以传递信息,按照编码的角度来看,出现频率越高的选项编码需要尽可能短,这样才能最有效率地传递信息,因此出现概率与编码长度应该成反比。

最短编码长度与频率一般遵循以下关系,即

我们现在想计算最短平均编码长度,就是计算期望,即

进行化简可得信息熵公式

当概率均分时信息熵一般最大,如果某一时间概率很大,就代表可能性越确定,则信息熵小,在机器学习中。一般只关注信息熵的相对大小,不关注数字,因此可以写成以下形式

信息熵公式的本质是对不确定性的度量

相对熵

现在我们不知道各个选项的频率,我们现在想要预测一个频率分布,并且度量它和实际频率分布的差异,则需要用到相对熵,即根据预测情况应用时的平均码长与实际情况信息熵之间的差值

表示的是实际概率分布,表示的是预测的概率分布

由于我们不关心对数的底数,因此可以得出相对熵公式,即KL散度

因为实际分布已经有最短平均码长,因此预测情况永远比实际大,即KL散度大于等于0

当两种概率分布差异越大,KL散度就越大;当概率分布完全相同时,KL散度为0

KL散度还有连续形式,即

交叉熵

DL散度可以写成如下形式

因为这部分是固定的常数值,因此机器学习中常忽略这部分,用交叉熵做损失函数,即

期望形式

观察三个公式,都有对概率的加权求和,概率的加权和即是期望,因此有期望形式

信息熵

相对熵

交叉熵

References

  1. 大白话AI | 作弊也有学问? | 信息熵 | 相对熵 | 交叉熵 | KL散度 | KL Divergence_哔哩哔哩_bilibili