誤差矩陣精度評估方法仍是目前遙感分類精度評估的核心方法,有人建議將其作為分類精度評估的標準方法(Smits et al .,1999)。然而,基於誤差矩陣的精度評估方法有很多局限性。隨著對遙感數據分類認識的深入和不同精度評價目標的需求,科學家們開發了許多新的誤差評價方法和指標。同時,基於誤差矩陣的精度評估方法也在不斷發展和完善。
表2-1列出了壹些主要的遙感分類精度評估方法及其精度度量指標。從評價方法來看,可分為三類:基於誤差矩陣的方法、基於模糊分析的方法和其他方法。
1.基於誤差矩陣的分類精度評估方法
誤差矩陣及其精度測量。
誤差矩陣又稱混淆矩陣,是壹個比較數組(Congalton,1991),用來表示歸入某壹類別的像素數和地面測試歸入該類別的像素數。通常,陣列中的列表示參考數據,而行表示通過遙感數據分類獲得的類別數據。典型的誤差矩陣如圖2-3所示。從誤差矩陣中,我們可以直觀地得到每壹類的委托誤差和遺漏誤差。包含誤差是指不應該屬於某壹類別的像素被劃分到該類別的誤差,是用該類別所在行的非對角元素之和除以該行之和得到的;損失誤差是指屬於某壹類別的像素未歸入該類別的誤差,用該類別所在列的非對角元素之和除以該列之和得到。
表2-1各種分類精度的評價方法和特征
圖2-3誤差矩陣示意圖
誤差矩陣除了可以清晰地顯示各種包含誤差和丟失誤差,還可以計算出各種精度度量指標,如整體精度、生產者精度、用戶精度(story and congalton,1986)。總精度是誤差矩陣中主要對角元素的總和(正確分類的數量)除以樣本總數。生產者準確度和用戶準確度可以代表單個類別的準確度。生產者精度是壹個類別的正確分類數除以該類別的樣本總數(該類別的列數之和);用戶精度被定義為正確分類的類的數量除以劃分到類中的樣本數量(類的行的總和)。總體精度、生產者精度和用戶精度的計算公式見R.G .康加爾頓和K .格林(1998)。
除了上述描述性的精度測量,還可以使用各種基於誤差矩陣的統計分析技術來比較不同的分類方法,其中Kappa分析技術是最常用的。
卡帕分析技術(科恩,1960;斯特曼,1996;Congalton和Mead (1983)是壹種多元統計分析技術,它反映了分類結果在統計意義上優於隨機分類結果的程度,可以用來比較兩個分類器的誤差矩陣是否顯著不同(Congalton,1999;史密斯,1999).Kappa分析的結果是阿拉伯茶統計。從誤差矩陣中,可以計算出總體分類的阿拉伯茶統計數據和各種類別的條件卡帕系數。其計算公式見R.G .康加爾頓和k .格林(1998)。
Kappa系數及其方差的壹般估計方法是在假設抽樣模型是多項式模型的情況下發展起來的,但只有簡單隨機抽樣方法滿足這壹假設(Congalton,et al .,1999)。Stehman(1996)討論了分層抽樣條件下Kappa系數及其方差的估計方法。
除了Kappa分析技術,還可以通過“邊際擬合”技術對誤差矩陣進行歸壹化(或標準化),方便不同誤差矩陣之間的比較。通過對誤差矩陣進行歸壹化處理,可以消除誤差矩陣生成過程中因樣本數不同而產生的差異,並且可以對不同誤差矩陣中的任何對應元素進行比較。由於在歸壹化過程中考慮了非對角元素的信息,歸壹化後的精度相比誤差矩陣中的整體精度更能代表分類的真實精度(Congalton et al .,1998)。
2.基於誤差矩陣的精度評估方法存在的問題。
(1)精度度量指標。雖然從誤差矩陣中可以得到總體精度、生產者精度、用戶精度、Kappa系數等許多精度度量,但它已經成為評價遙感數據分類精度的核心方法(Foody,2006 54 38+0;史密斯,1999).但是在實際應用中,還是存在很多問題(Foody,1992;龐蒂亞斯,2000年).
Foody(1992)認為總體分類精度被低估是因為在Kappa系數的計算中,chance agree實際上被高估了。馬和雷德蒙(1995)也認識到了這個問題,建議用Tau系數代替Kappa系數作為誤差矩陣的精度指標。壹些科學家甚至認為,Kappa系數作為壹個非概率性的測量,不適合作為壹個精密的測量指標(Stehman and Czaplewski,1998)。也有壹些科學家認為應該根據不同的目標使用不同的精度測量(Lark,1995;斯特曼,1997,1999;Koukoulas和Blackburn,2001),並在精度評估報告中提供了原始誤差矩陣和多次精度測量,以充分描述分類精度(Arbia et al .,1998;穆勒等人,1998;斯特曼,1997).
(2)抽樣問題。由於誤差矩陣是基於某個樣本量的地面真值類別和分類類別的比較,因此不同的抽樣設計和樣本量直接關系到精度評估結果。斯特曼(1995;1996;1997;1998;1999;2000;2001)對遙感分類精度評估中的抽樣問題做了非常深入的研究。就樣本量而言,大樣本量壹般會提高評價結果的可靠性,但會增加分析成本。對於抽樣方法,首先要保證抽樣的無偏性,這是保證精度評估結果可靠性的基礎;其次,基於誤差矩陣的進壹步分析與采用哪種抽樣方法有關,因為不同的抽樣模型需要不同的方差估計方法;最後,采樣方法決定了樣本的空間分布,直接影響精度評估的成本(Congalton et al .,1999)。常見的抽樣方法包括簡單隨機抽樣、系統抽樣、分層隨機抽樣、總體抽樣和分層系統抽樣。王金鳳等(2002)發展了適用於小樣本問題的夾層抽樣方法,並成功應用於耕地面積監測抽樣。Congalton等人(1999)詳細討論了各種采樣方法的優缺點。壹般來說,簡單隨機抽樣具有良好的統計特性,適合基於誤差矩陣的精度分析。然而,在實際評估過程中很難獲得地面真實信息,因為隨機樣本可能位於無法到達的區域。而且在樣本數量較少的情況下,壹些面積較小的類別可能沒有樣本點,但樣本點多了會增加成本和樣本獲取的難度,這在實際應用中是壹個非常尖銳的矛盾。理論上,分層隨機抽樣可以解決小區域類別中沒有樣本點的問題。Stehman(1996)發展了分級隨機抽樣下阿拉伯茶的統計方差估計方法。但在實際評估過程中可能不太現實,因為在選取樣本之前可能不知道各個類別的位置(Congalton et al .,1999)。對於其他抽樣方法,如何估計阿拉伯茶統計量的方差仍然是壹個問題。
(3)參考數據的準確性。基於誤差矩陣的分類精度評估的基本假設之壹是參考數據完全正確。這種假設在實際評估中往往難以保證。在很多情況下,地面參考數據也包含誤差(康加頓和格林,1999;霍拉姆,1999;盧內塔等人,2001;周和羅布森等人,1998),甚至包含了比分類數據更大的誤差(艾布拉姆斯,比安奇和皮耶裏,1996;鮑爾等人,1994;鮑爾斯和羅文,1996;Merchant等人,1994).參考數據中的誤差既包括專題誤差,也包括參考數據和分類數據登記造成的位置誤差(Dicks和Lo,1990)。在評估精度時,誤差矩陣中參考數據與分類數據的不壹致總是歸結於分類數據的誤差(Congalton,1991;Fitzgerald和Lees,1994),這可能導致低估分類結果的準確性(朱,楊,Stehman和Czaplewski,2000)。
參考數據通常有兩個來源。壹種是通過實地調查獲得的,另壹種是以空間分辨率較高的遙感數據的分類結果作為參考數據。地面真實信息的獲取受到地面場景的復雜程度、空間分布和采樣單元大小,以及人的主觀判斷的影響。在地面目標復雜的區域,往往很難確定某個位置屬於哪壹類。同時,當采樣單元較大時,由於混合像元的存在,可能找不到像元大小的“純”地面真相。在更多情況下,更高空間分辨率的分類結果被用作參考數據來“驗證”粗空間分辨率遙感數據的分類結果(Justice et al .,2000;Thomlinson等人,1999).在比較不同分辨率的數據時,混合像元的存在以及兩個數據集分類系統的差異所導致的類別清晰度的差異也會給精度評估結果帶來嚴重偏差(Bird et al .,2000;Czaplewski,1992;Scepan等人,1999;周等,1998).因為參考數據的問題,有科學家認為基於誤差矩陣的精度評價方法只適用於區域尺度的高分辨率遙感數據的分類精度評價,不適用於粗分辨率遙感數據的分類精度評價(Merchant et al .,1994)。大尺度粗分辨率遙感數據的分類精度評估壹直受到廣泛關註(Justice et al .,2000;Stehman,Wickham,Yang and Smith,2000),並取得了壹些進展。例如,Lewis和Brown(2001)開發了壹種廣義誤差矩陣來評估亞像素分類和面積估計的準確性。結合模糊分類方法在大規模低分辨率遙感數據分類中的應用,對不同的模糊分類精度評估方法(Foody,1996;坎特斯,1997;湯森,2000;阿特金森,1999).
(4)錯誤的嚴重程度。在基於誤差矩陣的分類精度評估中,所有分類誤差都被同等加權(Foody,2002)。換句話說,任何分類錯誤的嚴重性都被認為是相同的。事實上,不同類別之間的混淆具有不同的錯誤嚴重性(福布斯,1995;奈塞特,1996;斯特曼,1999).錯誤有時發生在相對相似的類別之間,有時發生在不相關的類別之間。相似類別之間的錯誤在應用中可能並不重要,但非常不同類別之間的分類錯誤在應用中可能會導致嚴重的後果(Defries和Los,1999)。例如,在土地覆被分類中,針葉林和水體之間的分類誤差遠比針葉林和闊葉林之間的分類誤差嚴重。
由於表層物質分布的連續性,不同類別之間沒有明顯的界限,而是從壹個類別逐漸過渡到另壹個類別。而通用分類器(硬分類器)是用壹組離散的類別來表示這種連續分布,並根據分類判別規則將具有相似特征的像素分配到不同的類別中(Foody,2000;斯蒂爾等人,1998;Townsend,2000年).相似類別光譜特征的相似性決定了在分類誤差矩陣中,類別混淆大多發生在類別之間的過渡區域。在這種情況下,誤差矩陣中相似類別的混淆程度可能很大,但由於相似類別之間的混淆,在實際應用中分類結果的實際質量更高。雖然誤差矩陣中有些類別沒有混淆,但由於不相關的類別之間存在混淆(如水體和陰影),數據質量存在嚴重問題。因此,從應用的角度來看,誤差矩陣總是混亂的可能性並不壹定意味著數據質量低,反之亦然。解決這個問題的壹個方法是對不同類別之間的誤差使用不同的權重來計算加權Kappa系數(Naesset,1996)。但權重的選取具有主觀性,不同目的的評價結果不具有可比性(Stehman,1997b)。
(5)誤差的空間分布和可視化。遙感分類數據中的誤差在空間上不是隨機分布的(Congalton,1988;1999)。根據不同的地物和傳感器特性,遙感分類數據中的誤差具有壹定的空間分布結構。而在傳統的基於誤差矩陣的精度評價中,每個類別對應壹個精度度量值,這就意味著每個類別中所有被分類的像素都具有相同的不確定性,這顯然是不成立的。由於混合像元的存在,壹般誤差主要分布在類別之間的邊緣區域(Congalton,1988;愛德華茲和洛厄爾,1996;斯蒂爾等人,1998;維埃拉和馬瑟,2000年).誤差的空間分布不僅有助於檢測誤差的來源,而且在以遙感分類結果為數據源的環境模型中的誤差傳播分析中非常重要(Lanter和Veregin,1992;米歇爾等人,2001).然而,誤差矩陣和從誤差矩陣獲得的精度測量不能提供關於誤差的空間分布的任何信息(Canters,1997;莫裏塞特等人,1999;斯蒂爾等人,1998;維森等人,2000年).為了表達和檢測遙感分類精度的空間分布結構,許多研究致力於分類不確定性的可視化(Fisher,1994;維埃拉和馬瑟,2000年;馬塞利、科內塞和彼得科夫,1994;範德和戈特,1998).最大似然分類過程中的後驗概率可以很好地描述分類不確定性的空間分布(Canters,1997;Goodchild等人,1992),而且很容易在視覺上表達。然而,後驗概率只能從最大似然分類法中獲得,這限制了它的應用。McIver和Friedl(2001)使用非參數機器學習方法來估計像素級土地覆蓋分類的不確定性。此外,信息熵(朱,1997)、模糊推理方法(Foody,2000)和地質統計學方法(deBruin,2000)也被用於提供誤差的空間變化信息。
二、基於模糊集理論的精度評估方法
前面在討論誤差矩陣精度評估中的參考數據問題時提到,實際中有時很難找到屬於某壹類的“純”參考數據,因為混合像元的存在,使得精度評估結果有偏差。針對這種情況,戈帕爾和伍德庫克(1994,2000)發展了壹種用模糊集理論評價遙感分類專題圖精度的方法。該方法在語義上將分類精度分為五個語義精度等級:絕對誤差、可理解但錯誤、可接受、良好、完全正確。通過專家知識得到各語義尺度的模糊隸屬度,再通過模糊推理得到分類圖像錯誤的頻率、嚴重程度和錯誤來源。模糊集理論評價方法提供了混合像元情況下的誤差評價方法,並能提供誤差嚴重程度的信息。然而,利用專家知識獲取模糊隸屬度的方法具有主觀性和隨意性(Knight和Khorram,2000),不便於比較不同的評價結果。而且它只提供了參考數據中類別間的混淆信息,所以其準確性信息遠不如Kappa統計量(Smits,1999)豐富。同時,在實際應用中,建立模糊邏輯推理的規則也不是壹件容易的事情(Congalton,1999)。此外,基於模糊集理論的精度評估方法在基於誤差矩陣的分析中還存在誤差的采樣和空間分布以及可視化表達的問題。
三、其他分類不確定度評估方法
除了基於誤差矩陣和模糊集理論的遙感分類不確定性評估方法外,還有許多分析技術用於評估分類精度。比如羅森菲爾德(1981)提出的方差分析技術,Maxim(1983)的多元偽貝葉斯估計技術,Richards(1996)的貝葉斯精度估計技術,基於成本的精度評估方法(Smits,1999)。基於模糊相似度的精度度量(Gunther Jager和Ursula Benz,2000)、最小精度值分析法(Aronoff,1985)、誤分類概率估計(Steele等人,1998)和後驗概率估計(Canters,1997;古德喬爾德等人,1992)等。其中,後驗概率估計因能在像素尺度上反映分類不確定性的空間分布結構和變化,且便於可視化表達而越來越受到關註。而基於後驗概率估計的評價方法壹般只適用於貝葉斯分類。如何評價其他常用分類方法在像素尺度上的不確定性,是本書要研究的內容之壹。