地理環境是多要素的復雜系統,在我們進行地理系統分析時,多變量問題是經常會遇到的。變量太多,無疑會增加分析問題的難度與復雜性,而且在許多實際問題中,多個變量之間是具有壹定的相關關系的。因此,我們就會很自然地想到,能否在各個變量之間相關關系研究的基礎上,用較少的新變量代替原來較多的變量,而且使這些較少的新變量盡可能多地保留原來較多的變量所反映的信息?事實上,這種想法是可以實現的,本節擬介紹的主成分分析方法就是綜合處理這種問題的壹種強有力的方法。
第壹節 主成分分析方法的原理
主成分分析是把原來多個變量化為少數幾個綜合指標的壹種統計分析方法,從數學角度來看,這是壹種降維處理技術。假定有n個地理樣本,每個樣本***有p個變量描述,這樣就構成了壹個n×p階的地理數據矩陣:
如何從這麽多變量的數據中抓住地理事物的內在規律性呢?要解決這壹問題,自然要在p維空間中加以考察,這是比較麻煩的。為了克服這壹困難,就需要進行降維處理,即用較少的幾個綜合指標來代替原來較多的變量指標,而且使這些較少的綜合指標既能盡量多地反映原來較多指標所反映的信息,同時它們之間又是彼此獨立的。那麽,這些綜合指標(即新變量)應如何選取呢?顯然,其最簡單的形式就是取原來變量指標的線性組合,適當調整組合系數,使新的變量指標之間相互獨立且代表性最好。
如果記原來的變量指標為x1,x2,…,xp,它們的綜合指標——新變量指標為x1,x2,…,zm(m≤p)。則
在(2)式中,系數lij由下列原則來決定:
(1)zi與zj(i≠j;i,j=1,2,…,m)相互無關;
(2)z1是x1,x2,…,xp的壹切線性組合中方差最大者;z2是與z1不相關的x1,x2,…,xp的所有線性組合中方差最大者;……;zm是與z1,z2,……zm-1都不相關的x1,x2,…,xp的所有線性組合中方差最大者。
這樣決定的新變量指標z1,z2,…,zm分別稱為原變量指標x1,x2,…,xp的第壹,第二,…,第m主成分。其中,z1在總方差中占的比例最大,z2,z3,…,zm的方差依次遞減。在實際問題的分析中,常挑選前幾個最大的主成分,這樣既減少了變量的數目,又抓住了主要矛盾,簡化了變量之間的關系。
從以上分析可以看出,找主成分就是確定原來變量xj(j=1,2,…,p)在諸主成分zi(i=1,2,…,m)上的載荷lij(i=1,2,…,m;j=1,2,…,p),從數學上容易知道,它們分別是x1,x2,…,xp的相關矩陣的m個較大的特征值所對應的特征向量。
第二節 主成分分析的解法
主成分分析的計算步驟
通過上述主成分分析的基本原理的介紹,我們可以把主成分分析計算步驟歸納如下:
(1)計算相關系數矩陣
在公式(3)中,rij(i,j=1,2,…,p)為原來變量xi與xj的相關系數,其計算公式為
因為R是實對稱矩陣(即rij=rji),所以只需計算其上三角元素或下三角元素即可。
(2)計算特征值與特征向量
首先解特征方程|λI-R|=0求出特征值λi(i=1,2,…,p),並使其按大小順序排列,即λ1≥λ2≥…,≥λp≥0;然後分別求出對應於特征值λi的特征向量ei(i=1,2,…,p)。
(3)計算主成分貢獻率及累計貢獻率
壹般取累計貢獻率達85-95%的特征值λ1,λ2,…,λm所對應的第壹,第二,……,第m(m≤p)個主成分。
(4)計算主成分載荷
由此可以進壹步計算主成分得分:
第三節 主成分分析應用實例
主成分分析實例
對於某區域地貌-水文系統,其57個流域盆地的九項地理要素:x1為流域盆地總高度(m)x2為流域盆地山口的海拔高度(m),x3為流域盆地周長(m),x4為河道總長度(km),x5為河
表2-14 某57個流域盆地地理要素數據
道總數,x6為平均分叉率,x7為河谷最大坡度(度),x8為河源數及x9為流域盆地面積(km)的原始數據如表2-14所示。張超先生(1984)曾用這些地理要素的原始數據對該區域地貌-水文系統作了主成分分析。下面,我們將其作為主成分分析方法在地理學研究中的壹個應用實例介紹給讀者,以供參考。
表2-15相關系數矩陣
(1)首先將表2-14中的原始數據作標準化處理,由公式(4)計算得相關系數矩陣(見表2-15)。
(2)由相關系數矩陣計算特征值,以及各個主成分的貢獻率與累計貢獻率(見表2-16)。由表2-16可知,第壹,第二,第三主成分的累計貢獻率已高達86.5%,故只需求出第壹,第二,第三主成分z1,z2,z3即可。
表2-16 特征值及主成分貢獻率
(3)對於特征值λ1=5.043,λ2=1.746,λ3=0.997分別求出其特征向量e1,e2,e3,並計算各變量x1,x2,……,x9在各主成分上的載荷得到主成分載荷矩陣(見表2-17)。
表2-17 主成分載荷矩陣
從表2-17可以看出,第壹主成分z1與x1,x3,x4,x5,x8,x9有較大的正相關,這是由於這六個地理要素與流域盆地的規模有關,因此第壹主成分可以被認為是流域盆地規模的代表:第二主成分z2與x2有較大的正相關,與x7有較大的負相關,而這兩個地理要素是與流域切割程度有關的,因此第二主成分可以被認為是流域侵蝕狀況的代表;第三主成分z3與x6有較大的正相關,而地理要素x6是流域比較獨立的特性——河系形態的表征,因此,第三主成成可以被認為是代表河系形態的主成分。
以上分析結果表明,根據主成分載荷,該區域地貌-水文系統的九項地理要素可以被歸為三類,即流域盆地的規模,流域侵蝕狀況和流域河系形態。如果選取其中相關系數絕對值最大者作為代表,則流域面積,流域盆地出口的海拔高度和分叉率可作為這三類地理要素的代表,利用這三個要素代替原來九個要素進行區域地貌-水文系統分析,可以使問題大大地簡化。
二、內梅羅水質指數汙染
表1 內梅羅水質指數汙染等級劃分標準 P <1 1~2 2~3 3~5 >5 水質等級 清潔 輕汙染 汙染 重汙染 嚴重汙染 表2 地表水環境質量標準(GB3838—2002) 單位:mg/L 序 號 項 目 V類標準值 1 水溫(℃) — 2 PH值(無量綱) 6—9 3 溶解氧 ≥ 2 4 高錳酸鹽指數 ≤ 15 5 化學需氧量 ≤ 40 6 五日生化需氧量 ≤ 10 7 氨氮 ≤ 2.0 8 總磷 ≤ 0.4 9 總氮 ≤ 2.0 10 銅 ≤ 1.0 11 鋅 ≤ 2.0 12 氟化物 ≤ 1.5 13 硒 ≤ 0.02 14 砷 ≤ 0.1 15 汞 ≤ 0.001 16 鎘 ≤ 0.01 17 鉻(六價) ≤ 0.1 18 鉛 ≤ 0.1 19 氰化物 ≤ 0.2 20 揮發酚 ≤ 0.1 21 石油類 ≤ 1.0 22 硫化物 ≤ 1.0 23 糞大腸菌群(個/L) ≤ 40000 表3 水質評價計算方法 單因子汙染指數 Pi = Ci/ Si Ci——第i項汙染物的監測值; Si——第i項汙染物評價標準值; 溶解氧指數Cf——對應溫度T時的飽和溶解氧濃度;
Ci——溶解氧濃度監測值;
Si——溶解氧評價標準值; pH指數pHi——pH監測值;
pHS,min——評價標準值的下限;
pHS,max ——評價標準值的上限;汙染物超標倍數Ci ——第i項汙染物的監測值;
C0 ——第i項汙染物評價標準值; 內梅羅指數Pmax ——單因子汙染指數的最高值;
Pi ——第i項汙染物的汙染指數;
n ——參與評價汙染物的項數; 常用的客觀賦權法之壹:熵值法
熵是信息論中測度壹個系統不確定性的量。信息量越大,不確定性就越小,熵也越小,反之,信息量越小,不確定性就越大,熵也越大。熵值法主要是依據各指標值所包含的信息量的大小,利用指標的熵值來確定指標權重的。熵值法的壹般步驟為:
(1)、對決策矩陣作標準化處理,得到標準化矩陣,並進行歸壹化處理得:
(2)、計算第個指標的熵值:。其中。
(3)、計算第個指標的差異系數。對於第個指標,指標值的差異越大,對方案評價的作用越大,熵值越小,反之,差異越小,對方案評價的作用越小,熵值就越大。因此,定義差異系數為:。
(4)、確定指標權重。第個指標的權重為:。
效益型和成本型指標的標準化方法
對於效益型(正向)指標和成本型(逆向)指標,由於這兩者是最常見並且使用最廣泛的指標,所以,對這兩種指標標準化處理的方法也最多,壹般的處理方法有:
1. 極差變換法
該方法即在決策矩陣中,對於效益型指標,令
=
對於成本型指標,令
=
則得到的矩陣稱為極差變換標準化矩陣。其優點為經過極差變換後,均有,且各指標下最好結果的屬性值,最壞結果的屬性值。該方法的缺點是變換前後的各指標值不成比例。
2. 線性比例變換法
即在決策矩陣中,對於效益型指標,令
=
對成本型指標,令
=
或
=
則矩陣稱為線性比例標準化矩陣。該方法的優點是這些變換方式是線性的,且變化前後的屬性值成比例。但對任壹指標來說,變換後的和不壹定同時出現。
3. 向量歸壹化法
即在決策矩陣中,對於效益型指標,令
對於成本型指標,令
則矩陣稱為向量歸壹標準化矩陣。顯然,矩陣的列向量的模等於1,即。該方法使,且變換前後正逆方向不變,缺點是它是非線性變換,變換後各指標的最大值和最小值不相同。
4. 標準樣本變換法
在中,令
其中,樣本均值,樣本均方差,則得出矩陣,稱為標準樣本變換矩陣。經過標準樣本變換之後,標準化矩陣的樣本均值為,方差為。
5. 等效系數法
對成本型指標,令
=
該方法的優點是變換前後的指標值成比例,缺點是各指標下方案的最好與最差指標值標準化後不完全相同。
另外,關於效益型指標的標準化處理還有:
=
關於成本型指標的標準化處理還有:
=
固定型指標的標準化方法
對於固定型指標,若設為給定的固定值,則標準化處理的方法主要有以下幾種,即令
或
或
或
(4.15)式的特點是各最優屬性值標準化後的值均為1,而各最差屬性的值標準化後的值不統壹,即不壹定都為0。
若設和分別是人為規定的最優方案和最劣方案,在該情形下,還給出了效益型、成本型和固定型指標的新的標準化方法。
對效益型和成本型,有:
對固定型指標則有:
區間型指標的標準化方法
對區間型的指標,其指標標準化處理的方法主要有以下幾式:
設,令
或令
顯然,還可以簡化為:
或令
或令
其中,是指給定的某個固定區間,即屬性值越接近該區間越好。
偏離型指標的標準化方法
對越來越偏離某值越好的偏離性指標,壹般有如下標準化公式:
或令
(對都有)
或令
偏離型指標是與固定型指標相對立的壹種指標類型,它的公式使用可以用固定型指標的公式改造,但在使用時要註意其公式的適用範圍。
偏離區間型指標的標準化方法
對偏離區間型指標,有如下標準化的方法:
令
或令
或令
其中,是某個固定區間,屬性值越偏離該區間越好。偏離區間型指標是與區間型指標相對立的壹種指標類型。