上面定性分析了數據和信息之間的區別和聯系,下面對數據和信息進行定量分析。數據量和信息量之間會有什麽聯系呢?是不是數據量越大,其中包含的信息量就越多呢?不壹定。比如,有人說“人的嘴巴上方有鼻子,鼻子上方有眼睛”,因為這是預料中的事,所以妳從這個消息中得到的信息量很少。但如果有人說“人的鼻子上方有嘴巴,嘴巴上方有眼睛”,就會讓人很震驚,因為這是預料之外的,這樣的信息量就很大。這說明了:壹個消息越不可預測,它所含的信息量就越大。
事實上,信息的基本作用就是消除人們對事物了解的不確定性。信息量是指從N個相等的可能事件中選出壹個事件所需要的信息度量和含量。從這個定義看,信息量跟概率是密切相關的。在概率論中,用P(x)表示在N個相等的可能事件出現某壹個事件的概率,即P(x)=1/N。信息量I(x)定義為:
I(x)=log2N = -log2(1/N )= -log2P(x)
結合概率論知識,推而廣之,可以用下面的公式——稱之為熵H(x)公式來表示壹大堆數據帶來的平均信息量。
註意:這個平均信息量不是算術平均,是概率論的統計平均——數學期望值。