我们现在想计算最短平均编码长度,就是计算期望,即
进行化简可得信息熵公式
当概率均分时信息熵一般最大,如果某一时间概率很大,就代表可能性越确定,则信息熵小,在机器学习中。一般只关注信息熵的相对大小,不关注数字,因此可以写成以下形式
信息熵公式的本质是对不确定性的度量
现在我们不知道各个选项的频率,我们现在想要预测一个频率分布,并且度量它和实际频率分布的差异,则需要用到相对熵,即根据预测情况应用时的平均码长与实际情况信息熵之间的差值
由于我们不关心对数的底数,因此可以得出相对熵公式,即KL散度
因为实际分布已经有最短平均码长,因此预测情况永远比实际大,即KL散度大于等于0
当两种概率分布差异越大,KL散度就越大;当概率分布完全相同时,KL散度为0
KL散度还有连续形式,即
DL散度可以写成如下形式
因为
观察三个公式,都有对概率
信息熵
相对熵
交叉熵