網絡數據抽取工具簡介
傳統的網絡數據抽取是針對抽取對象手工編寫壹段專門的抽取程序,這個程序稱為包裝器(wrapper)。近年來,越來越多的網絡數據抽取工具被開發出來,替代了傳統的手工編寫包裝器的方法。目前的網絡數據抽取工具可分為以下幾大類(實際上,壹個工具可能會歸屬於其中若幹類):
開發包裝器的專用語言(Languages for Wrapper Development):用戶可用這些專用語言方便地編寫包裝器。例如Minerva,TSIMMIS,Web-OQL,FLORID,Jedi等。 以HTML為中間件的工具(HTML-aware Tools):這些工具在抽取時主要依賴HTML文檔的內在結構特征。在抽取過程之前,這些工具先把文檔轉換成標簽樹;再根據標簽樹自動或半自動地抽取數據。代表工具有Knowlesys,MDR。 基於NLP(Natural language processing)的工具(NLP-based Tools):這些工具通常利用filtering、part-of-speech tagging、lexical semantic tagging等NLP技術建立短語和句子元素之間的關系,推導出抽取規則。這些工具比較適合於抽取那些包含符合文法的頁面。代表工具有 RAPIER,SRV,WHISK。 包裝器的歸納工具(Wrapper Induction Tools):包裝器的歸納工具從壹組訓練樣例中歸納出基於分隔符的抽取規則。這些工具和基於NLP的工具之間最大的差別在於:這些工具不依賴於語言約束,而是依賴於數據的格式化特征。這個特點決定了這些工具比基於NLP的工具更適合於抽取HTML文檔。代表工具有:WIEN,SoftMealy,STALKER。 基於模型的工具(Modeling-based Tools):這些工具讓用戶通過圖形界面,建立文檔中其感興趣的對象的結構模型,“教”工具學會如何識別文檔中的對象,從而抽取出對象。代表工具有:NoDoSE,DEByE。 基於本體的工具(Ontology-based Tools):這些工具首先需要專家參與,人工建立某領域的知識庫,然後工具基於知識庫去做抽取操作。如果知識庫具有足夠的表達能力,那麽抽取操作可以做到完全自動。而且由這些工具生成的包裝器具有比較好的靈活性和適應性。代表工具有:BYU,X-tract。