互信息是什麽？起到什麽作用？

簡單介紹

互信息是信息論裏壹種有用的信息度量，它可以看成是壹個隨機變量中包含的關於另壹個隨機變量的信息量，或者說是壹個隨機變量由於已知另壹個隨機變量而減少的不肯定性。簡單說，就是兩個事件集合之間的相關性。

比如，在圖像處理中，常常需要比較兩幅圖像的相似度，互信息就是其中壹種較為常用的方法，其核心思想就是熵。

熵

在互信息中有用到熵的概念，這裏我們再簡單介紹壹下熵。

熵最初是熱力學中表征物質狀態的參量。其物理意義就是體系的混亂程度。任何壹種能量在空間中分布的越均勻，熵越大。當完全均勻分布時，這個系統的熵就達到了最大值，也就是說此時的系統越混亂。

對於事件來說，當所有狀態概率相等的時候熵最大，這個時候系統對取什麽態沒有偏向性，所以混亂度最大。

在信息世界，熵越高，則能傳輸越多的信息，熵越低，則意味著傳輸的信息越少。（這裏指的是信息量）

信息熵

在我們處理信息的過程中，我們知道的事件確定性越大，所獲取到的信息就會越少。比如，我們知道某件事情壹定會發生，那麽我們就不會接收到其它信息了。

所以我們獲取信息內容的度量，是依賴於概率分布 P(x) ，因此我們要找到的信息量公式 h(x) 是需要隨著概率單調遞減的函數。所以這裏我們選擇了

那麽對於同壹個事件，如果有多種可能，比如下圖這樣：

那麽就可以用來描述信息熵了

上面所提到的底數都沒有設置，可以為 2 e 10 ，只是表征壹個度量，並沒有固定死要求。

互信息的計算公式在信息熵層面可以理解為：

其中的 H(A,B)為聯合熵。

相對熵

相對熵又稱KL散度,如果我們對於同壹個隨機變量 x 有兩個單獨的概率分布P Q ，我們可以使用 KL 散度（Kullback-Leibler (KL) divergence）來衡量這兩個分布的差異。下面是維基百科對相對熵的描述

In the context of machine learning, DKL(P‖Q) is often called the information gain achieved if P is used instead of Q.

n為事件的所有可能性。 KL值越小，表示q分布和p分布越接近。

對上式進行變形：

交叉熵：交叉熵實際上是更廣泛的相對熵的特殊形式

互信息

互信息實際上是更廣泛的相對熵的特殊形式，如果（x,y）~ p(x,y) , X ,Y 之間的互信息 I(X;Y) 定義為：

使用概率的加和規則和乘積規則,我們看到互信息和條件熵之間的關系為

平均互信息

平均互信息表征了兩個集合之間的關聯程度。具有以下物理含義：

平均互信息 = 先驗的平均不確定性 – 觀察到 Y後 X保留的平均不確定性。

平均互信息 = 接收到Y後X 的平均不確定性消除的程度。

平均互信息 = 接收到Y 後獲取到關於X 的平均信息量。

在聯合集（X,Y）上，把互信息量 I(a;b) 的概率加權平均值定義為平均互信息量。其定義式為：