統計學基礎知識之數據離散程度描述
集中趨勢指標是數據的壹個特征,數據的另壹個特征是離散程度指標。在統計分析中,離散程度指標可以說明集中趨勢指標的代表性如何,還可在統計推斷時用來計算誤差的大小。另外,離散程度指標還被用來說明事物在發展變化過程中的均衡性、節奏性和穩定性等問題。例如,有兩組數據,第壹組是19,20,21,第二組是15,20,25。如果只根據均值(兩組的均值都是20)我們將無法區別兩組數據有什麽不同。但顯然兩組數據是有區別的。在這種情況下,就需要使用離散程度的指標來描述那壹組分散的程度更大壹些。下面是我為大家帶來的關於數據離散程度描述的知識,歡迎閱讀。
離散程度指標的種類很多,下面介紹的是常用的幾種。
全距(Range)又稱極差,是指數據中最大值和最小值的差值。如果用R表示全距,用Xmax,Xmin,分別表示數據的最大值、最小值,則全距公式為:R = Xmax- Xmin。例如,前面提到的兩組數據中,第壹組數據的全距R = 21 ? 19 = 2,第二組數據的全距R = 25 ? 15 = 10。通過全距的數值我們可以確定第二組數據的離散程度更大。由此,我們可以記住壹個壹般性結論:離散指標的數據越小,說明數據的變異程度就越小;數值越大,則說明數據的變異程度越大。當然,這個結論只有在同類離散指標相比較時才會有意義。
全距指標的應用問題
全距指標的含義容易理解,計算也很簡便。因此,在某些場合具有特殊的用途。例如,要說明壹個地區的溫度情況,沒有比用溫差說明更好的指標了。在描述壹種股票的波動情況時,最高價和最低價的差是常使用的特征值。另外,在成品質量控制方法中,R控制圖也是全距的壹種應用。但是,全距在計算上只與兩個極端值有關,因此它不能反應其他數據的分散情況,就這壹點來說,全距只是壹個比較粗糙的測度指標。如果需要全面、精確地說明數據離散程度時,就不宜使用全距。
平均差(Mean Absolute Deviation)就是各項數值與其均值之差絕對值之和的平均數。用MAD表示平均差,其公式為:
所謂離散,是個相對概念,需要用壹個標準來衡量。因為均值是最重要也是最常用的指標,所以就成為衡量離散程度的壹個常用標準。方法就是用各項數據與與均值相減,通常將這個差值稱為離差(Deviation)。離差數值的大小就可以說明數據的偏離程度。但是,可以證明
因為相對於均值的正、負偏差之和是相等的。為了解決離差正、負值抵消的問題,統計學家使用了絕對值的方法,如平均差,更多使用的是平方的方法,如方差,然後再用平均的方法,消除掉由於數據項數多少給離差值帶來的`影響,即從指標的含義來看,平均差的數值代表了所有數據離均值的平均距離,使用該數據說明數據的離散程度,比較容易理解。
平均差的應用問題
雖然平均差簡單易懂,但因為使用了絕對值,不便於進壹步計算,所以在實際應用中不如其他離散指標應用那樣廣泛。但在預測領域,還常常使用該指標用於誤差的說明。
方差(Variance)就是全部數據離差平方的平均數。總體方差表示,計算公式為:
方差克服了平均差絕對值的問題,成為描述離散程度的壹個重要指標。但是,在方差數值含義的解釋上卻遇到困難。因為方差的單位是數據單位的平方,誇大了數據的離散程度,使人不易直觀理解數值意義。因此,通常取方差的算數平方根作為描述離散程度的指標,即標準差(StandardDeviation)。總體標準差的公式表示如下:
如果用上面的數據計算,對於這個數據,我們就很容易理解它的含義了。=方差、標準差的應用問題總體方差表示,總體標準差用
表示,而樣本方差用S2表示,樣本標準差用S表示,不能混淆。樣本方差與標準差的計算公式如下:
可以看到,樣本方差及標準差與總體方差和標準差的計算公式略有不同。樣本方差和標準差的分母是n-1而不是n。因為樣本的方差和標準差在使用中,經常作為總體方差和標準差的估計量,分母除以n-1而不是n,可以得到總體方差和標準差的較好的估計量。
離散系數(Coefficient Of Variation)就是標準差與均值的比值。壹般用V表示。總體的離散系數表示:
樣本的離散系數表示為:
離散系數的應用問題
離散系數實質上是標準差相對於均值的大小。因此,如果比較均值不相同的兩組數據相對離散程度時,使用離散系數,要比使用標準差更準確。例如,假定有甲、乙兩個工人,甲平均每小時生產40個零件,標準差是5件。乙平均每小時生產80個零件,標準差為6件。那麽那個工人的穩定性比較好呢?根據標準差的定義,標準差越小,離散性就越小,所以甲生產要比乙穩定。但是,我們看到乙的標準差雖然比甲略高,但其生產的能力確實甲的2倍(80/40)。也就是說,6相對於80的變化要小於5相對於40的變化,這個含義就是離散系數。計算過程如下:
由此可見,乙的離散系數小於甲,所以乙的生產要比甲相對穩定。離散系數是個無名數,這是它與其他離散指標的最大區別。全距、平均差還有標準差,它們都是有名數,其單位與原始數據的單位壹致。離散系數的這壹特點使其不僅可以說明同類事物的相對離散程度,還可以說明不同類事物的相對離散程度。例如,當我們有興趣比較壹群人的身高離散程度大,還是體重離散程度大時,其他離散指標都不能用於比較,因為身高與體重的單位不壹致。而離散系數就可以比較,因為它完全消除了單位的影響。
;