隱蔽軟件(surreptitious software)是近十年來計算機安全研究領域新興的壹個分支。在隱蔽軟件的研究過程中不僅需要借鑒計算機安全方面的技術,還會用到計算科學其他領域的大量技術,如密碼學、隱寫術、數字水印、軟件量度(software metric)、逆向工程以及編譯器優化等。我們使用這些技術來滿足在計算機程序中安全存儲秘密信息的需求,盡管這些需求的表現形式千差萬別、各不相同。本書中“秘密”壹詞的意思比較廣,書中所介紹技術(代碼混淆、軟件水印和指紋、防篡改技術以及軟件“胎記”等)的使用目的是防止他人剽竊軟件中的智力成果。比如,軟件中使用指紋技術可以用來跟蹤軟件是否被盜版,代碼混淆技術能夠加大攻擊者逆向分析軟件的難度,而防篡改技術則可以使別人很難制作軟件的破解版,等等。
好了,現在我們來講講為什麽需要閱讀本書,誰使用隱蔽軟件以及本書將會涵蓋哪些內容。
為什麽閱讀本書
與傳統的安全研究不同,隱蔽軟件不關心如何使計算機免於計算機病毒入侵,它關心的是計算機病毒的作者是如何防止他人分析病毒的!同樣,我們也不關心軟件到底有沒有安全漏洞,我們關心的是如何隱蔽地在程序中加入壹些只有在程序被篡改時才會執行的代碼。密碼學研究領域中,被加密數據的安全性依賴於加密密鑰的隱秘性,而我們現在研究的恰恰是如何隱藏密鑰。軟件工程中有大量的軟件量度技術,以確保程序結構良好,本書中將使用同樣的技術使程序復雜難讀。本書中描述的很多技術都是基於編譯器優化技術研究開發的算法的,但是編譯優化的目的是使編譯器生成個頭盡量小、運行速度盡量快的程序,而使用本書中介紹的壹些技術卻會使生成的程序個頭又大,執行起來又慢。最後,傳統的數字水印和隱寫術是想辦法把要隱藏的信息藏到圖像、音頻、視頻甚至純文本文件中,而隱蔽軟件則是把需要隱藏的信息藏到計算機代碼中。
那麽,為什麽要閱讀本書呢?為什麽要了解壹種不能防止計算機被病毒或者蠕蟲攻擊的安全技術?為什麽要學習壹種只會讓代碼體積變大而執行速度變慢的編譯優化技術?為什麽要把精力花在壹種違反了密碼學基本前提(即密鑰是不可能被攻擊者獲得的)的密碼學分支上呢?
回答是,傳統的計算機安全和密碼學研究成果有時並不能解決實際工作中遇到的且亟待解決的安全問題。比如,在本書中將展示如何使用軟件水印技術防止軟件盜版。軟件水印是在程序中嵌入的唯壹標識(類似信用卡的卡號或者版權聲明),通過這個標識,程序的某個副本就和妳(程序的作者)或者客戶聯系在了壹起。要是妳發現市場上在賣自己軟件的盜版光盤,就可以通過在盜版軟件中提取的水印追查制作這個盜版軟件的母版 當初是哪個家夥從妳這裏買走的。當給合作商提供新開發的遊戲的測試版時,妳也可以在測試版中加上數字水印。要是妳感覺有人泄露了妳的代碼,就能(從眾多的合作商中)找出肇事者,並把他送上法庭。
又比如,在程序的新版本中加上了某個新的算法,妳當然不希望競爭對手也得到這個算法,並把它加到他們的軟件中。這時,妳就可以去混淆程序,使之盡可能變得復雜難懂,使競爭對手逆向分析軟件時效率很低。而如果確實懷疑某人剽竊了妳的代碼,本書也會教妳如何使用軟件“胎記”證實妳的懷疑。
再比如,妳的程序中包含有某段不能為人所知的代碼,並且妳想確保沒有這段代碼程序就不能正常運行。例如,妳肯定不希望黑客修改程序中的軟件使用許可驗證代碼,或者可用於解密數字版權管理系統中mp3文件的密鑰。第7章將討論多種防篡改技術,確保受到篡改的程序停止正常運行。
聽說妳把密鑰放在可執行文件裏了?這主意實在太糟糕了!以往的經驗告訴我們,任何類似“不公開,即安全” 的做法最終都將以失敗告終,而且不管在程序中怎樣隱藏密鑰,最終它都逃不出壹個足夠頑強的逆向分析人員的手心。當然,必須承認妳的做法也還是對的。本書中介紹的所有技巧都不能保證軟件能永遠免於黑客的毒手。不必保證某個東西永遠處於保密的狀態,也不必保證程序永遠處於不可能被篡改的狀態,更不需要保證代碼永遠不會被剽竊。除非這個研究領域有什麽重大的突破,否則能指望的只是延緩對方的攻擊。我們的目標就是把攻擊者的攻擊速度減緩到足夠低,使他感到攻擊妳的軟件十分痛苦或要付出過高的代價,從而放棄攻擊。也可能攻擊者很有耐心地花了很長時間攻破了妳的防禦,但這時妳已經從這個軟件中賺夠了錢,或者已經用上了更新版本的代碼(這時他得到的東西也就壹錢不值了)。
比方說,妳是壹個付費頻道的運營商,用戶通過機頂盒來觀看妳提供的電視節目。每個機頂盒都是帶有標簽的——在代碼的某個位置上存放了分配給每個用戶的唯壹標識(ID),這樣妳就可以根據用戶的繳費情況決定是允許還是拒絕某個特定用戶觀看頻道裏的節目。可是現在有壹個黑客團夥找到並且反匯編了這段代碼,發現了計算用戶ID的算法,並且在網上以低廉的價格把修改用戶ID的方法賣給了網民。這時妳該怎麽辦呢?妳也許想到了使用防篡改的智能卡,不過這玩意兒並不像看上去那麽難破解,這將在第11章中講解。或者妳可能想到要混淆代碼,使之更難以被分析。或者妳也可以使用防篡改技術使程序壹被修改就自動停止運行。更有可能,妳會混合使用上述各種技巧來保護代碼。但是盡管使用了所有技術,妳還必須要知道並且必須接受,妳的代碼仍然可能被破解,秘密仍會泄露(在這個案例裏就是機頂盒裏的用戶ID仍然會被篡改)這壹事實。怎麽會這樣呢?這只是因為“不公開,既安全”這個想法在根本上就存在漏洞。不過既然本書中介紹的所有技術都不能給妳壹個“完美並且長期的安全保證”,那麽為什麽還要使用這些技術,為什麽還要買這樣壹本書呢?答案很簡單,代碼能頂住黑客攻擊的時間越長,訂閱頻道的客戶就越多,同時升級機頂盒的周期也就越長,這樣妳賺到的錢和省下的錢也就越多。
就這麽簡單。
誰使用隱蔽軟件
很多知名的公司都對隱蔽軟件有濃厚的興趣。事實上很難真正掌握有關技術在實踐中具體被使用的程度(因為大多數公司在如何保護自己的代碼壹事上絕對是守口如瓶的),但是我們還是可以根據他們專利的申請和擁有情況把他們對隱蔽軟件的感興趣程度猜個八九不離十。微軟公司擁有多個關於軟件水印[104,354]、代碼混淆[62,62,69,69,70,70,180,378]和軟件“胎記”[364]技術的專利。Intertrust公司擁有大量與數字版權管理技術相關的組合式專利,包括代碼混淆和代碼防篡改專利。2004年,在微軟與Intertrust之間的馬拉松式官司落下了帷幕之後,微軟向Intertrust支付了高達4.4億美元的專利使用費,才獲得了後者所有的專利使用許可。同年,微軟也開始與PreEmptive Solution公司開展商業合作[250],從而把PreEmptive Solution開發的identifier obfuscator(PreEmptive solution公司在該工具中擁有專利[351])加到了Visual Studio的工具集裏。而普渡大學科研成果的副產品Arxan,因其獨創的防篡改算法專利[24,305]而成功地開辦了壹家公司。蘋果公司擁有壹個代碼混淆方面的專利,估計是用於保護其iTune軟件的。Convera,壹家從英特爾公司獨立出來的企業,則著力研究應用於數字版權管理的代碼防篡改技術[27,268-270]。從加拿大北方電信公司中分離出來的Cloakware公司也是這個領域裏最成功的企業之壹。該公司擁有他們稱為“白盒加密”的專利[67,68,182],即把加密算法和密鑰藏到程序代碼中。2007年12月,Cloakware公司被壹家主營付費電視業務的荷蘭公司Irdeto以7250萬美元的價格收購。即使是相對的後來者Sun Microsystem也已經提交了壹些代碼混淆領域的專利申請。
Skype的VoIP客戶端也使用了類似Arxan[24]、英特爾[27]及本書中將要提到的[89]代碼混淆和防篡改技術進行了防逆向工程加固。對於Skype公司來說,保護其客戶端的完整性無疑是極其重要的,因為壹旦有人成功逆向分析了其客戶端軟件,解析出Skype所使用的網絡協議,黑客們就能寫出廉價的能與Skype軟件進行正常通信的程序(這樣的話,人們就沒有必要壹定用Skype)。所以保持網絡協議不公開則有助於Skype擁有壹個龐大的用戶群,這大概也是2005年易貝公司以26億美元收購Skype的原因吧。實際上,使用隱蔽軟件技術還使Skype公司贏得了足夠多的時間,進而成為了VoIP技術的領軍企業。即使這時Skype的協議被分析出來了(這壹點黑客們確實也做到了,詳見7.2.4節),黑客們也拿不出壹個能夠撼動Skype市場地位的類似軟件了。
學術研究者從多種角度對隱蔽軟件技術進行了研究。壹些擁有編譯器和程序語言研究背景的研究者,比如我們,會很自然地加入這壹領域的研究,因為涉及代碼轉換的絕大多數算法都會涉及靜態分析的問題,而這壹問題則是編譯優化技術的研究者再熟悉不過的了。盡管以前,密碼學研究者大多不屑於研究“不公開,即安全”的問題,但最近壹些密碼學研究人員已經開始把密碼學的相關技術應用於軟件水印以及發現代碼混淆技術的局限性上了。來自多媒體水印、計算機安全和軟件工程方面的研究人員也已經發表了很多關於隱蔽軟件的文章。遺憾的是,由於沒有專門的刊物、學術會議(供研究人員相互之間進行交流),這壹領域的研究進展被大大延緩了。事實上,為了使這些研究成果能被傳統的學術會議和期刊接受,研究人員在不停地努力著,現在仍在努力。目前已經發表過隱蔽軟件研究成果的學術會議有POPL(Principles of Programming Languages,程序設計原理)上的ACM專題研討會、信息隱藏研討會、IEEE的軟件工程研討會、高級密碼學會議(CRYPTO)、ISC(Information Security Conference,信息安全大會)以及其他壹些關於數字版權管理的學術會議。隨著隱蔽軟件這壹領域的研究越來越成為學術研究的主流,我們有望擁有專門針對於隱蔽軟件的期刊、專題討論會甚至是研討會,只是可惜目前為止這壹切都還沒有實現。
軍方也在隱蔽軟件上花了很多精力(和納稅人的錢)。比如,Cousot公司擁有的軟件水印算法[95]專利就歸屬於世界上第九大國防工程承包商法國Thales集團。下面是壹段引自最新的(2006)美軍招標文件[303]中有關AT(anti-tamper)技術 研究的文字。
現在,所有的美軍項目執行部門(PEO)和項目管理方(PM)在設計和實現有關系統時,必須在系統中使用軍隊和國防部制定的AT策略。嵌入式軟件現代武器系統的核心,是被保護的最重要技術之壹。AT技術能夠有效地保證這些技術不被他國(人)逆向工程分析利用。僅僅由標準編譯器編譯生成而不加AT技術防護的代碼是很容易被逆向分析的。在分析軟件時,逆向工程分析人員會綜合使用諸如調試器、反編譯器、反匯編器等很多工具,也會使用各種靜態和動態分析技巧。而使用AT技術的目的就是使逆向工程變得更為困難,進而防止美國在技術領域的優勢被他國竊取。今後還有必要向部隊的PEO和PM提供更有用、更有效並且多樣化的AT工具集……研發AT技術的目的在於提供壹個能夠抗逆向工程分析的高強度殼 ,從而最大限度地遲滯敵方對被保護軟件的攻擊。這樣美國就有機會維持其在高科技領域的優勢或者減緩其武器技術泄密的速度。最終,美軍就能繼續保持其技術優勢,進而保證其軍備的絕對優勢。
這份招標文件來自於美軍導彈和空間程序(設計部門),專註於實時嵌入式系統的保護。我們有理由相信產生這份招標文件的原因是,美軍擔心射向敵方的導彈由於種種原因落地後未能爆炸,使敵方有機會接觸到嵌入在導彈中負責引導導彈飛臨目標上空的控制軟件。
下面是另壹段引自美國國防部[115]的文字。
進行主動式軟件保護 (SPI)是國防部的職責之壹,它必須開發和部署相關的保護技術,以保證含有國防武器系統關鍵信息的計算機程序的安全。SPI提供的是壹種全新的安全防護方法,它並不(像傳統的安全技術那樣)保護計算機或者網絡的安全,而只是加強計算機程序自身的安全。這種新方法能顯著提升國防部的信息安全情況。SPI的適用範圍很廣,從臺式機到超級計算機上面所有的程序都能使用SPI技術予以保護。它是(軟件保護技術中)完整的壹層,是“縱深防禦”的壹個範例。SPI技術是對網絡防火墻、物理安全等傳統安全技術的壹個補充,但是其實現並不依賴於這些傳統的安全設備。現在SPI技術被部署在選定的HPC中心和150多家國防部機關以及其他由商業公司參與建設和維護的軍事基地。廣泛地部署SPI技術將會有效地增強美國和美國國防部對關鍵應用技術的保護。
. 上面這段話說明了什麽?它說明美國國防部不僅關心導彈會不會掉到敵方領土上去,還關心在自己的安全系數和性能都很高的計算機中心運行的軟件的安全。事實上,竊密和反竊密是防間諜機關和情報部門之間永恒的主題。比方說,壹架戰鬥機上的某個程序需要更新壹下,這時我們很可能就是用壹臺筆記本電腦連接到這架戰鬥機上進行更新操作。但是萬壹這臺筆記本電腦不慎遺失了,或者幹脆就被其他國家政府使用某種方法控制了,就像電影裏常演的那樣,這時會有什麽情況發生呢?對方會馬上把相關的代碼拿去做逆向工程分析,並把分析的結果用於改進其戰鬥機中所使用的軟件。更有甚者,對方會悄悄地在妳的軟件中加上壹個特洛伊木馬,並讓飛機在特定的時間裏從天上掉下來。如果我們不能絕對保證上述這壹幕100%不可能發生的話,隱蔽軟件至少可以作為安全防禦的最後壹道防線(至少還能做到事後的責任追究)。例如,飛機中的軟件可以用有權訪問相關軟件的人的ID做壹個指紋簽名。要是哪天,在其他國家的戰鬥機上發現了這些代碼,就可以立即對這些代碼進行逆向分析,並進壹步推算出誰是泄密事件的元兇。
什麽?我聽見妳說,為什麽我要對政府之間和商業巨頭之間如何保護它們各自的秘密感興趣呢?如果黑客破解了這些軟件,他們也不過是通過自己的勞動換取壹些微薄的利益而已啊。話雖如此,但是這些保護技術給妳 帶來的好處最終還是大於它給商業巨頭帶來的好處。理由是,對妳來說,法律形式的保護措施(如專利、商標和版權)只有當妳擁有足夠的財力,能在法庭上把對方告倒的時候才會管用。換而言之,即使妳認為某家大公司通過破解妳的代碼,剽竊了壹個極有“錢途”的主意,妳也無力通過那種馬拉松式的官司在法庭上告倒微軟,除非妳有足夠的經濟實力能在這種財力的比拼中熬出頭 。而在本書中討論的保護技術(比如代碼混淆和防篡改技術)則既廉價又好用,中小型企業和商業巨頭均可使用。而且如果這時妳去告這家大公司的話,也可以用水印或者軟件“胎記”等技術,在法庭上當場拿出代碼被剽竊的真憑實據來。
最後不得不簡單地提壹下另壹類極其擅長使用隱蔽軟件的人——壞蛋們。病毒的作者已經能非常成功地利用代碼混淆的技術偽裝病毒的代碼,使之逃避殺毒軟件的檢測了。值得壹提的是,人們使用這些技術(如保護DVD、遊戲和有線電視)時經常被黑客破解,而黑客使用這些技術(如構建惡意軟件)時,人們卻很難抗擊。
本書內容
隱蔽軟件研究的目的是發明能夠盡可能遲滯對手(逆向工程分析)進度,同時又盡可能地減少因為使用該技術,而在程序執行時增加的計算開銷的算法。同時也需要發明壹種評估技術,使我們可以說“在程序中使用了算法A之後,相對於原先的程序,黑客攻破新程序需要多花T個單位的時間,而新程序增加的性能開銷是0”,或者最低限度我們也應該可以說“相對於算法B,使用算法A保護的代碼更難被攻破”。特別要強調壹下,隱蔽軟件研究尚處於嬰兒期,雖然我們在書中會把相關的保護算法和評估算法全都介紹給大家,但是這門藝術的現狀卻還並不理想(到時候妳可不能太失望啊)。
在本書中,我們試圖把當前所有有關隱蔽軟件的研究成果組織起來系統化地介紹給讀者。我們力爭每章內容涵蓋壹種技術,並描述這壹技術的應用領域以及目前可用的算法。第1章將給出隱蔽軟件這個領域的壹些基本概念;第2章用對抗性演示的模式介紹黑客逆向分析軟件時常用的工具和技巧,然後針對這些工具和技巧介紹如何防範黑客的攻擊;第3章詳細講述黑客和軟件保護方用於分析計算機程序的技術;第4章、第5章和第6章分別介紹與代碼混淆有關的算法;第7章介紹與防篡改技術相關的算法;第8章和第9章分別介紹與水印相關的算法;第10章介紹與軟件“胎記”相關的算法;第11章講述基於硬件設備的軟件保護技術。
如果妳是位企業管理人員,只是對隱蔽軟件的研究現狀和這些技術怎麽應用到妳的項目中感興趣,那麽只要閱讀第1章和第2章就夠了。如果妳是位擁有編譯器設計背景的研究人員,那麽建議直接跳到第3章開始閱讀。但是之後的章節還是最好順序閱讀。這是因為……呃,還是舉個例子吧,介紹水印技術的章節中會用到在代碼混淆章節中介紹的知識。當然在本書撰寫過程中,我們還是盡量使各章內容都能獨立成章的,所以(如果妳擁有壹些背景知識)偶爾跳過那麽壹兩章也未嘗不可。如果妳是壹位工程師,想要使用有關技術加固妳的軟件,那麽強烈建議妳仔仔細細地閱讀第3章的所有內容,如果有條件的話,還應該再搞幾本編譯原理方面的教材惡補壹下“程序靜態分析”的知識。然後妳就可以隨意跳到感興趣的章節去閱讀了。如果妳是名大學生,把本書作為壹門課程的教材來閱讀,那麽就應該壹頁壹頁地完整閱讀本書,期末別忘了做好復習。
希望本書能夠做到兩件事情。首先,希望能向妳,親愛的讀者,證明代碼混淆、軟件水印、軟件“胎記”和防篡改等技術裏有大量妙不可言的想法,值得妳花點時間去學習,而且這些技術也可以用來保護軟件。其次,希望本書能把本領域內當前所有有用的信息匯集在壹起,從而為隱蔽軟件的深入研究提供壹個良好的起點。
Christian Collberg和Jasvir Nagra
2009年2月2日(土撥鼠日)
P.S.實際上寫作這本書還有第三個目的。要是在閱讀本書時,妳突然靈光閃現,冒出壹個絕妙的主意,進而激發了妳投身於隱蔽軟件研究的雄心壯誌,那麽,親愛的讀者,我這第三個目的就算是達到了。請把妳的新算法告訴我們,我們將把它加到本書的下壹版裏!