互信息是信息論裏壹種有用的 信息度量 ,它可以看成是壹個隨機變量中包含的關於另壹個隨機變量的信息量,或者說是壹個隨機變量由於已知另壹個隨機變量而減少的不肯定性。簡單說,就是兩個事件集合之間的相關性。
比如,在圖像處理中,常常需要比較兩幅圖像的相似度,互信息就是其中壹種較為常用的方法,其核心思想就是熵。
熵
在互信息中有用到熵的概念,這裏我們再簡單介紹壹下熵。
熵最初是熱力學中表征物質狀態的參量。其物理意義就是體系的混亂程度。任何壹種能量在空間中分布的越均勻,熵越大。當完全均勻分布時,這個系統的熵就達到了最大值,也就是說此時的系統越混亂。
對於事件來說,當所有狀態概率相等的時候熵最大,這個時候系統對取什麽態沒有偏向性,所以混亂度最大。
在信息世界,熵越高,則能傳輸越多的信息,熵越低,則意味著傳輸的信息越少。(這裏指的是信息量)
信息熵
在我們處理信息的過程中,我們知道的事件確定性越大,所獲取到的信息就會越少。比如,我們知道某件事情壹定會發生,那麽我們就不會接收到其它信息了。
所以我們獲取信息內容的度量,是依賴於概率分布 P(x) ,因此我們要找到的信息量公式 h(x) 是需要隨著概率單調遞減的函數。所以這裏我們選擇了
那麽對於同壹個事件,如果有多種可能,比如下圖這樣:
那麽就可以用來描述信息熵了
上面所提到的底數都沒有設置,可以為 2 e 10 ,只是表征壹個度量,並沒有固定死要求。
互信息的計算公式在信息熵層面可以理解為:
其中的 H(A,B)為聯合熵。
相對熵
相對熵又稱KL散度,如果我們對於同壹個隨機變量 x 有兩個單獨的概率分布P Q ,我們可以使用 KL 散度(Kullback-Leibler (KL) divergence)來衡量這兩個分布的差異。下面是維基百科對相對熵的描述
In the context of machine learning, DKL(P‖Q) is often called the information gain achieved if P is used instead of Q.
n為事件的所有可能性。 KL值越小,表示q分布和p分布越接近。
對上式進行變形:
交叉熵:交叉熵實際上是更廣泛的相對熵的特殊形式
互信息
互信息實際上是更廣泛的相對熵的特殊形式,如果(x,y)~ p(x,y) , X ,Y 之間的互信息 I(X;Y) 定義為:
使用概率的加和規則和乘積規則,我們看到互信息和條件熵之間的關系為
平均互信息
平均互信息表征了兩個集合之間的關聯程度。具有以下物理含義:
平均互信息 = 先驗的平均不確定性 – 觀察到 Y後 X保留的平均不確定性。
平均互信息 = 接收到Y後X 的平均不確定性消除的程度。
平均互信息 = 接收到Y 後獲取到關於X 的平均信息量。
在聯合集(X,Y)上,把互信息量 I(a;b) 的概率加權平均值定義為平均互信息量。其定義式為: