KL散度

信息熵 | 相对熵 | 交叉熵 | KL散度 | KL Divergence

假设我们需要将ABCD四个选项进行01编码以传递信息，按照编码的角度来看，出现频率越高的选项编码需要尽可能短，这样才能最有效率地传递信息，因此出现概率与编码长度应该成反比。

最短编码长度与频率一般遵循以下关系，即

我们现在想计算最短平均编码长度，就是计算期望，即

进行化简可得信息熵公式

当概率均分时信息熵一般最大，如果某一时间概率很大，就代表可能性越确定，则信息熵小，在机器学习中。一般只关注信息熵的相对大小，不关注数字，因此可以写成以下形式

信息熵公式的本质是对不确定性的度量

现在我们不知道各个选项的频率，我们现在想要预测一个频率分布，并且度量它和实际频率分布的差异，则需要用到相对熵，即根据预测情况应用时的平均码长与实际情况信息熵之间的差值

表示的是实际概率分布，表示的是预测的概率分布

由于我们不关心对数的底数，因此可以得出相对熵公式，即KL散度

因为实际分布已经有最短平均码长，因此预测情况永远比实际大，即KL散度大于等于0

当两种概率分布差异越大，KL散度就越大；当概率分布完全相同时，KL散度为0

KL散度还有连续形式，即

DL散度可以写成如下形式

因为这部分是固定的常数值，因此机器学习中常忽略这部分，用交叉熵做损失函数，即

观察三个公式，都有对概率的加权求和，概率的加权和即是期望，因此有期望形式

信息熵

相对熵

交叉熵

LOADING