古詩詞大全網 - 個性簽名 - 如何區分結構化數據和非結構化數據

如何區分結構化數據和非結構化數據

相對於結構化數據(即行數據,存儲在數據庫裏,可以用二維表結構來邏輯表達實現的數據)而言,不方便用數據庫二維邏輯表來表現的數據即稱為非結構化數據,包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等等。

字段可根據需要擴充,即字段數目不定,可稱為半結構化數據,例如Exchange存儲的數據。

非結構化數據庫

在信息社會,信息可以劃分為兩大類。壹類信息能夠用數據或統壹的結構加以表示,我們稱之為結構化數據,如數字、符號;而另壹類信息無法用數字或統壹的結構表示,如文本、圖像、聲音、網頁等,我們稱之為非結構化數據。結構化數據屬於非結構化數據,是非結構化數據的特例

數據清洗從名字上也看的出就是把“臟”的“洗掉”。因為數據倉庫中的數據是面向某壹主題的數據的集合,這些數據從多個業務系統中抽取而來而且包含歷史數據,這樣就避免不了有的數據是錯誤數據、有的數據相互之間有沖突,這些錯誤的或有沖突的數據顯然是我們不想要的,稱為“臟數據”。我們要按照壹定的規則把“臟數據”“洗掉”,這就是數據清洗.而數據清洗的任務是過濾那些不符合要求的數據,將過濾的結果交給業務主管部門,確認是否過濾掉還是由業務單位修正之後再進行抽取。不符合要求的數據主要是有不完整的數據、錯誤的數據、重復的數據三大類。

(1)不完整的數據

這壹類數據主要是壹些應該有的信息缺失,如供應商的名稱、分公司的名稱、客戶的區域信息缺失、業務系統中主表與明細表不能匹配等。對於這壹類數據過濾出來,按缺失的內容分別寫入不同Excel文件向客戶提交,要求在規定的時間內補全。補全後才寫入數據倉庫。

(2)錯誤的數據

這壹類錯誤產生的原因是業務系統不夠健全,在接收輸入後沒有進行判斷直接寫入後臺數據庫造成的,比如數值數據輸成全角數字字符、字符串數據後面有壹個回車操作、日期格式不正確、日期越界等。這壹類數據也要分類,對於類似於全角字符、數據前後有不可見字符的問題,只能通過寫SQL語句的方式找出來,然後要求客戶在業務系統修正之後抽取。日期格式不正確的或者是日期越界的這壹類錯誤會導致ETL運行失敗,這壹類錯誤需要去業務系統數據庫用SQL的方式挑出來,交給業務主管部門要求限期修正,修正之後再抽取。

(3)重復的數據

對於這壹類數據——特別是維表中會出現這種情況——將重復數據記錄的所有字段導出來,讓客戶確認並整理。

數據清洗是壹個反復的過程,不可能在幾天內完成,只有不斷的發現問題,解決問題。對於是否過濾,是否修正壹般要求客戶確認,對於過濾掉的數據,寫入Excel文件或者將過濾數據寫入數據表,在ETL開發的初期可以每天向業務單位發送過濾數據的郵件,促使他們盡快地修正錯誤,同時也可以做為將來驗證數據的依據。數據清洗需要註意的是不要將有用的數據過濾掉,對於每個過濾規則認真進行驗證,並要用戶確認。

隨著網絡技術的發展,特別是Internet和Intranet技術的飛快發展,使得非結構化數據的數量日趨增大。這時,主要用於管理結構化數據的關系數據庫的局限性暴露地越來越明顯。因而,數據庫技術相應地進入了“後關系數據庫時代”,發展進入基於網絡應用的非結構化數據庫時代。所謂非結構化數據庫,是指數據庫的變長紀錄由若幹不可重復和可重復的字段組成,而每個字段又可由若幹不可重復和可重復的子字段組成。簡單地說,非結構化數據庫就是字段可變的數據庫。

我國非結構化數據庫以北京國信貝斯(iBase)軟件有限公司的iBase數據庫為代表。IBase數據庫是壹種面向最終用戶的非結構化數據庫,在處理非結構化信息、全文信息、多媒體信息和海量信息等領域以及Internet/Intranet應用上處於國際先進水平,在非結構化數據的管理和全文檢索方面獲得突破。它主要有以下幾個優點:

(1)Internet應用中,存在大量的復雜數據類型,iBase通過其外部文件數據類型,可以管理各種文檔信息、多媒體信息,並且對於各種具有檢索意義的文檔信息資源,如HTML、DOC、RTF、TXT等還提供了強大的全文檢索能力。

(2)它采用子字段、多值字段以及變長字段的機制,允許創建許多不同類型的非結構化的或任意格式的字段,從而突破了關系數據庫非常嚴格的表結構,使得非結構化數據得以存儲和管理。

(3)iBase將非結構化和結構化數據都定義為資源,使得非結構數據庫的基本元素就是資源本身,而數據庫中的資源可以同時包含結構化和非結構化的信息。所以,非結構化數據庫能夠存儲和管理各種各樣的非結構化數據,實現了數據庫系統數據管理到內容管理的轉化。

(4)iBase采用了面向對象的基石,將企業業務數據和商業邏輯緊密結合在壹起,特別適合於表達復雜的數據對象和多媒體對象。

(5)iBase是適應Internet發展的需要而產生的數據庫,它基於Web是壹個廣域網的海量數據庫的思想,提供壹個網上資源管理系統iBase Web,將網絡服務器(WebServer)和數據庫服務器(Database Server)直接集成為壹個整體,使數據庫系統和數據庫技術成為Web的壹個重要有機組成部分,突破了數據庫僅充當Web體系後臺角色的局限,實現數據庫和Web的有機無縫組合,從而為在Internet/Intranet上進行信息管理乃至開展電子商務應用開辟了更為廣闊的領域。

(6)iBase全面兼容各種大中小型的數據庫,對傳統關系數據庫,如Oracle、Sybase、SQLServer、DB2、Informix等提供導入和鏈接的支持能力。

通過從上面的分析後我們可以預言,隨著網絡技術和網絡應用技術的飛快發展,完全基於Internet應用的非結構化數據庫將成為繼層次數據庫、網狀數據庫和關系數據庫之後的又壹重點、熱點技術。