信息熵 :用來衡量事件不確定性,不確定性越大,熵越大。
對任意壹個隨機變量X,其熵定義為:
條件熵 :有兩個隨機變量X和Y,在Y事件確定後X的不確定性的大小稱為條件熵。條件熵的定義如下:
互信息 :信息的作用在於消除事件的不確定性,互信息作為兩個事件(X,Y)相關性的度量,即在確定了其中壹個事件Y的前提下,對消除另壹個事件X的不確定性所提供的信息量。互信息的定義如下:
上圖中紅色圓圈表示事件X的熵H(X),藍色圈表示事件Y的熵,兩個圈圈合起來的面積表示聯合熵H(X, Y),而純色的部分則表示條件熵(減去已知事件導致的熵減少),中間的交集互信息I(X; Y)表示事件X和Y的相關性。
相對熵(也即KL散度) :相對熵也用於衡量相關性,但和變量的互信息不同,它用來衡量兩個取值為正數的函數的相關性。定義如下:
需要註意的是KL散度是非對稱性的,即:
參考:
《數學之美》 吳軍.