人臉識別的發展歷史是怎樣的？

人臉識別是壹個被廣泛研究著的熱門問題，大量的研究論文層出不窮，在壹定程度上有泛濫成“災”之嫌。為了更好地對人臉識別研究的歷史和現狀進行介紹，本文將AFR的研究歷史按照研究內容、技術方法等方面的特點大體劃分為三個時間階段，如表1所示。該表格概括了人臉識別研究的發展簡史及其每個歷史階段代表性的研究工作及其技術特點。下面對三個階段的研究進展情況作簡單介紹：

第壹階段(1964年~1990年)

這壹階段人臉識別通常只是作為壹個壹般性的模式識別問題來研究，所采用的主要技術方案是基於人臉幾何結構特征(Geometricfeature based)的方法。這集中體現在人們對於剪影(Profile)的研究上，人們對面部剪影曲線的結構特征提取與分析方面進行了大量研究。人工神經網絡也壹度曾經被研究人員用於人臉識別問題中。較早從事AFR研究的研究人員除了布萊索(Bledsoe)外還有戈登斯泰因(Goldstein)、哈蒙(Harmon)以及金出武雄(Kanade Takeo)等。金出武雄於1973年在京都大學完成了第壹篇AFR方面的博士論文，直到現在，作為卡內基-梅隆大學(CMU)機器人研究院的壹名教授，仍然是人臉識別領域的活躍人物之壹。他所在的研究組也是人臉識別領域的壹支重要力量。總體而言，這壹階段是人臉識別研究的初級階段，非常重要的成果不是很多，也基本沒有獲得實際應用。

第二階段(1991年~1997年)

這壹階段盡管時間相對短暫，但卻是人臉識別研究的高潮期，可謂碩果累累：不但誕生了若幹代表性的人臉識別算法，美國軍方還組織了著名的FERET人臉識別算法測試，並出現了若幹商業化運作的人臉識別系統，比如最為著名的Visionics(現為Identix)的FaceIt系統。

美國麻省理工學院(MIT)媒體實驗室的特克(Turk)和潘特蘭德(Pentland)提出的“特征臉”方法無疑是這壹時期內最負盛名的人臉識別方法。其後的很多人臉識別技術都或多或少與特征臉有關系，現在特征臉已經與歸壹化的協相關量(NormalizedCorrelation)方法壹道成為人臉識別的性能測試基準算法。

這壹時期的另壹個重要工作是麻省理工學院人工智能實驗室的布魯內裏(Brunelli)和波基奧(Poggio)於1992年左右做的壹個對比實驗，他們對比了基於結構特征的方法與基於模板匹配的方法的識別性能，並給出了壹個比較確定的結論：模板匹配的方法優於基於特征的方法。這壹導向性的結論與特征臉***同作用，基本中止了純粹的基於結構特征的人臉識別方法研究，並在很大程度上促進了基於表觀(Appearance-based)的線性子空間建模和基於統計模式識別技術的人臉識別方法的發展，使其逐漸成為主流的人臉識別技術。

貝爾胡米爾(Belhumeur)等提出的Fisherface人臉識別方法是這壹時期的另壹重要成果。該方法首先采用主成分分析(PrincipalComponent Analysis，PCA，亦即特征臉)對圖像表觀特征進行降維。在此基礎上，采用線性判別分析(LinearDiscriminant Analysis, LDA)的方法變換降維後的主成分以期獲得“盡量大的類間散度和盡量小的類內散度”。該方法目前仍然是主流的人臉識別方法之壹，產生了很多不同的變種，比如零空間法、子空間判別模型、增強判別模型、直接的LDA判別方法以及近期的壹些基於核學習的改進策略。

麻省理工學院的馬哈丹(Moghaddam)則在特征臉的基礎上，提出了基於雙子空間進行貝葉斯概率估計的人臉識別方法。該方法通過“作差法”，將兩幅人臉圖像對的相似度計算問題轉換為壹個兩類(類內差和類間差)分類問題，類內差和類間差數據都要首先通過主成分分析(PCA)技術進行降維，計算兩個類別的類條件概率密度，最後通過貝葉斯決策(最大似然或者最大後驗概率)的方法來進行人臉識別。

人臉識別中的另壹種重要方法——彈性圖匹配技術(Elastic GraphMatching，EGM) 也是在這壹階段提出的。其基本思想是用壹個屬性圖來描述人臉：屬性圖的頂點代表面部關鍵特征點，其屬性為相應特征點處的多分辨率、多方向局部特征——Gabor變換[12]特征，稱為Jet;邊的屬性則為不同特征點之間的幾何關系。對任意輸入人臉圖像，彈性圖匹配通過壹種優化搜索策略來定位預先定義的若幹面部關鍵特征點，同時提取它們的Jet特征，得到輸入圖像的屬性圖。最後通過計算其與已知人臉屬性圖的相似度來完成識別過程。該方法的優點是既保留了面部的全局結構特征，也對人臉的關鍵局部特征進行了建模。近來還出現了壹些對該方法的擴展。

局部特征分析技術是由洛克菲勒大學(RockefellerUniversity)的艾提克(Atick)等人提出的。LFA在本質上是壹種基於統計的低維對象描述方法，與只能提取全局特征而且不能保留局部拓撲結構的PCA相比，LFA在全局PCA描述的基礎上提取的特征是局部的，並能夠同時保留全局拓撲信息，從而具有更佳的描述和判別能力。LFA技術已商業化為著名的FaceIt系統，因此後期沒有發表新的學術進展。

由美國國防部反毒品技術發展計劃辦公室資助的FERET項目無疑是該階段內的壹個至關重要的事件。FERET項目的目標是要開發能夠為安全、情報和執法部門使用的AFR技術。該項目包括三部分內容：資助若幹項人臉識別研究、創建FERET人臉圖像數據庫、組織FERET人臉識別性能評測。該項目分別於1994年，1995年和1996年組織了3次人臉識別評測，幾種最知名的人臉識別算法都參加了測試，極大地促進了這些算法的改進和實用化。該測試的另壹個重要貢獻是給出了人臉識別的進壹步發展方向：光照、姿態等非理想采集條件下的人臉識別問題逐漸成為熱點的研究方向。

柔性模型(Flexible Models)——包括主動形狀模型(ASM)和主動表觀模型(AAM)是這壹時期內在人臉建模方面的壹個重要貢獻。ASM/AAM將人臉描述為2D形狀和紋理兩個分離的部分，分別用統計的方法進行建模(PCA)，然後再進壹步通過PCA將二者融合起來對人臉進行統計建模。柔性模型具有良好的人臉合成能力，可以采用基於合成的圖像分析技術來對人臉圖像進行特征提取與建模。柔性模型目前已被廣泛用於人臉特征對準(FaceAlignment)和識別中，並出現了很多的改進模型。

總體而言，這壹階段的人臉識別技術發展非常迅速，所提出的算法在較理想圖像采集條件、對象配合、中小規模正面人臉數據庫上達到了非常好的性能，也因此出現了若幹知名的人臉識別商業公司。從技術方案上看， 2D人臉圖像線性子空間判別分析、統計表觀模型、統計模式識別方法是這壹階段內的主流技術。

第三階段(1998年~現在)

FERET’96人臉識別算法評估表明：主流的人臉識別技術對光照、姿態等由於非理想采集條件或者對象不配合造成的變化魯棒性比較差。因此，光照、姿態問題逐漸成為研究熱點。與此同時，人臉識別的商業系統進壹步發展。為此，美國軍方在FERET測試的基礎上分別於2000年和2002年組織了兩次商業系統評測。

基奧蓋蒂斯(Georghiades)等人提出的基於光照錐 (Illumination Cones) 模型的多姿態、多光照條件人臉識別方法是這壹時期的重要成果之壹，他們證明了壹個重要結論：同壹人臉在同壹視角、不同光照條件下的所有圖像在圖像空間中形成壹個凸錐——即光照錐。為了能夠從少量未知光照條件的人臉圖像中計算光照錐，他們還對傳統的光度立體視覺方法進行了擴展，能夠在朗博模型、凸表面和遠點光源假設條件下，根據未知光照條件的7幅同壹視點圖像恢復物體的3D形狀和表面點的表面反射系數(傳統光度立體視覺能夠根據給定的3幅已知光照條件的圖像恢復物體表面的法向量方向)，從而可以容易地合成該視角下任意光照條件的圖像，完成光照錐的計算。識別則通過計算輸入圖像到每個光照錐的距離來完成。

以支持向量機為代表的統計學習理論也在這壹時期內被應用到了人臉識別與確認中來。支持向量機是壹個兩類分類器，而人臉識別則是壹個多類問題。通常有三種策略解決這個問題，即：類內差/類間差法、壹對多法(one-to-rest)和壹對壹法(one-to-one)。

布蘭茲(Blanz)和維特(Vetter)等提出的基於3D變形(3D Morphable Model)模型的多姿態、多光照條件人臉圖像分析與識別方法是這壹階段內壹項開創性的工作。該方法在本質上屬於基於合成的分析技術，其主要貢獻在於它在3D形狀和紋理統計變形模型(類似於2D時候的AAM)的基礎上，同時還采用圖形學模擬的方法對圖像采集過程的透視投影和光照模型參數進行建模，從而可以使得人臉形狀和紋理等人臉內部屬性與攝像機配置、光照情況等外部參數完全分開，更加有利於人臉圖像的分析與識別。Blanz的實驗表明，該方法在CMU-PIE(多姿態、光照和表情)人臉庫和FERET多姿態人臉庫上都達到了相當高的識別率，證明了該方法的有效性。

2001年的國際計算機視覺大會(ICCV)上，康柏研究院的研究員維奧拉(Viola)和瓊斯(Jones)展示了他們的壹個基於簡單矩形特征和AdaBoost的實時人臉檢測系統，在CIF格式上檢測準正面人臉的速度達到了每秒15幀以上。該方法的主要貢獻包括：1)用可以快速計算的簡單矩形特征作為人臉圖像特征;2)基於AdaBoost將大量弱分類器進行組合形成強分類器的學習方法;3)采用了級聯(Cascade)技術提高檢測速度。目前，基於這種人臉/非人臉學習的策略已經能夠實現準實時的多姿態人臉檢測與跟蹤。這為後端的人臉識別提供了良好的基礎。

沙蘇哈(Shashua)等於2001年提出了壹種基於商圖像[13]的人臉圖像識別與繪制技術。該技術是壹種基於特定對象類圖像集合學習的繪制技術，能夠根據訓練集合中的少量不同光照的圖像，合成任意輸入人臉圖像在各種光照條件下的合成圖像。基於此，沙蘇哈等還給出了對各種光照條件不變的人臉簽名(Signature)圖像的定義，可以用於光照不變的人臉識別，實驗表明了其有效性。

巴斯裏(Basri)和雅各布(Jacobs)則利用球面諧波(Spherical Harmonics)表示光照、用卷積過程描述朗博反射的方法解析地證明了壹個重要的結論：由任意遠點光源獲得的所有朗博反射函數的集合形成壹個線性子空間。這意味著壹個凸的朗博表面物體在各種光照條件下的圖像集合可以用壹個低維的線性子空間來近似。這不僅與先前的光照統計建模方法的經驗實驗結果相吻合，更進壹步從理論上促進了線性子空間對象識別方法的發展。而且，這使得用凸優化方法來強制光照函數非負成為可能，為光照問題的解決提供了重要思路。

FERET項目之後，湧現了若幹人臉識別商業系統。美國國防部有關部門進壹步組織了針對人臉識別商業系統的評測FRVT，至今已經舉辦了兩次：FRVT2000和FRVT2002。這兩次測試壹方面對知名的人臉識別系統進行了性能比較，例如FRVT2002測試就表明Cognitec, Identix和Eyematic三個商業產品遙遙領先於其他系統，而它們之間的差別不大。另壹方面則全面總結了人臉識別技術發展的現狀：較理想條件下(正面簽證照)，針對37437人121,589 幅圖像的人臉識別(Identification)最高首選識別率為73%，人臉驗證(Verification)的等錯誤率(EER[14])大約為6%。FRVT測試的另壹個重要貢獻是還進壹步指出了目前的人臉識別算法亟待解決的若幹問題。例如，FRVT2002測試就表明：目前的人臉識別商業系統的性能仍然對於室內外光照變化、姿態、時間跨度等變化條件非常敏感，大規模人臉庫上的有效識別問題也很嚴重，這些問題都仍然需要進壹步的努力。

總體而言，目前非理想成像條件下(尤其是光照和姿態)、對象不配合、大規模人臉數據庫上的人臉識別問題逐漸成為研究的熱點問題。而非線性建模方法、統計學習理論、基於Boosting[15]的學習技術、基於3D模型的人臉建模與識別方法等逐漸成為備受重視的技術發展趨勢。

總而言之，人臉識別是壹項既有科學研究價值，又有廣泛應用前景的研究課題。國際上大量研究人員幾十年的研究取得了豐碩的研究成果，自動人臉識別技術已經在某些限定條件下得到了成功應用。這些成果更加深了我們對於自動人臉識別這個問題的理解，尤其是對其挑戰性的認識。盡管在海量人臉數據比對速度甚至精度方面，現有的自動人臉識別系統可能已經超過了人類，但對於復雜變化條件下的壹般人臉識別問題，自動人臉識別系統的魯棒性和準確度還遠不及人類。這種差距產生的本質原因現在還不得而知，畢竟我們對於人類自身的視覺系統的認識還十分膚淺。但從模式識別和計算機視覺等學科的角度判斷，這既可能意味著我們尚未找到對面部信息進行合理采樣的有效傳感器(考慮單目攝像機與人類雙眼系統的差別)，更可能意味著我們采用了不合適的人臉建模方法(人臉的內部表示問題)，還有可能意味著我們並沒有認識到自動人臉識別技術所能夠達到的極限精度。但無論如何，賦予計算設備與人類似的人臉識別能力是眾多該領域研究人員的夢想。相信隨著研究的繼續深入，我們的認識應該能夠更加準確地逼近這些問題的正確答案。