何謂數據質量可從兩個方面來理解:
1.1. 數據本身的數據質量
l 數據的真實性。
數據必須真實準確的反映實際發生的業務。
l 數據的完備性。
數據的完備性是說數據是充分的,任何有關操作的數據都沒有被遺漏。
l 數據的自洽性。
數據並不是孤立存在的,數據之間往往存在著各種各樣的約束,這種約束描述了數據的關聯關系。數據必須能夠滿足這種數據之間的關聯關系,而不能夠相互矛盾。
數據的真實性、完備性、自洽性是數據本身應具有的屬性,稱為數據的絕對質量,是保證數據質量的基礎。
除了數據的絕對質量外,還有我們在利用和存貯數據的過程中所產生的數據質量,包括使用質量、存貯質量和傳輸質量,稱之為過程質量。
1.2. 數據的過程質量
l 數據的使用質量
數據的使用質量是指數據被正確的使用。再正確的數據,如果被錯誤的使用,就不可能得出正確的結論。
l 數據的存貯質量
數據的存貯質量是指數據被安全的存貯在適當的介質上。所謂安全是指采用了適當的方案和技術來抵制外來的因素,使數據免受破壞,備份是我們常使用的技術,包括異地備份和雙機備份等,美國的9.11事件和2004年底發生的印度洋海嘯事件使越來越多的企業領導意識到備份尤其是異地備份的重要性;所謂存貯在適當的介質上是指當需要數據的時候能及時方便的取出。
l 數據的傳輸質量
數據的傳輸質量是指數據在傳輸過程中的效率和正確性。在現代信息社會中,數據在異地之間的傳輸越來越多,保證傳輸過程中的高效率和正確性非常重要。
2. 數據質量和數據壹致性
在工作中我們發現,很多用戶甚至壹些數據倉庫項目的開發人員經常將數據質量和數據倉庫項目開發中的ETL過程的數據壹致性混為壹談,錯誤的認為數據倉庫項目(也即ETL過程)能夠修復數據以提高數據質量,其實數據質量和ETL過程的數據壹致性是兩個不同的概念。
ETL過程的數據壹致性是指根據相同的業務理解(基於源系統模型和基於數據倉庫模型),在源系統查詢和統計的信息與在數據倉庫中得到的結果在各個細節層次(包括明細層次)上都是相同的。數據壹致性是ETL過程必須保證的。
數據質量是存在於企業的源系統中的,如常見的客戶代碼的不規範,同壹個客戶在不同的系統中(例如業務處理系統和財務系統)有不同的代碼,甚至同壹個客戶在同壹個系統中也有不同的代碼,以保險公司的業務處理系統為例,同壹個客戶先後在同壹個保險公司投保,不同的業務員可能會輸入不同的客戶代碼;更常見的是那些沒有實現大集中的分布式的應用,同壹個客戶(如工商銀行)在不同的分公司(如河南分公司和湖北分公司)投保,業務員很可能會輸入不同的代碼;再如,在業務處理系統中,有些錄入人員為了錄入的方便,常常將壹些內容不輸或者采用默認值,造成壹些重要錄入信息的缺失或錯誤。這些數據質量問題對我們的數據分析系統造成嚴重的幹擾和破壞。
數據倉庫項目雖然不能夠修復數據以提高數據質量,但能發現存在的部分問題從而提醒用戶哪些數據是有質量問題的,給出用戶壹些改進的建議,同時在分析和決策時應降低對這些數據的依賴程度,也可以提供輔助的方法跟蹤、監測數據質量問題。
3. 數據質量的重要性
數據信息是企業重要的戰略資源,合理有效的使用正確的數據能指導企業領導作出正確的決策,提高企業的競爭力。不合理的使用不正確的數據(即差的數據質量)可導致決策的失敗,正可謂差之毫厘、謬以千裏。
現在很多大型企業已意識到數據信息和數據質量的重要性,專門成立了數據中心來管理數據方面的工作。
4. 數據質量不高的原因
我們的數據來自於數據錄入人員通過信息技術手段(開發計算機處理系統)輸入到系統中的,因此數據質量不高來源於下面的兩方面:
4.1. 信息技術手段
現代信息技術已足以保證數據的存貯和傳輸質量,不是本文討論的重點,不過多論述。造成我們的計算機處理系統得到的數據質量不高的原因,很多情況是我們的計算機處理系統的用戶界面不友好,不方便用戶的錄入,或是不符合用戶常規的操作習慣,導致用戶容易出錯或是錄入工作量大;對重要的錄入信息沒有加強效驗。
4.2. 數據錄入人員
由於數據錄入人員的輸入失誤,或是違反操作流程(故意或不是故意的),是造成數據質量不高另壹個重要原因。這個問題,可以從兩個方面來看待:
l 數據錄入人員的責任心不強和業務素質不高。
l 基層領導對數據質量的不重視。業務收入是基層的生命線,基層領導不會投入大量的人力和物力來抓數據質量,由於市場競爭的激烈,有時基層領導為了爭奪客戶甚至會讓錄入員作出壹些違規的操作,基層領導對數據的認識與管理與高層領導對數據的需求形成矛盾,這壹矛盾是造成數據質量不高的壹個核心矛盾。
5. 如何做好數據質量的管理工作
如何做好數據質量的管理工作,筆者認為可以從三個方面抓起:
5.1. 提高對數據的認識
我們只有認識到數據在管理中的重要作用,才會反過來重視數據質量問題。要讓企業的每壹個員工都能認識到數據是企業重要的戰略資源,企業的壹切決策都來源於數據。沒有正確的高質量的數據,就沒有正確的決策。國外有壹個諺語“Garbage in,garbage out”(進去的是垃圾,出來的還是垃圾),試問,我們決策時使用的是垃圾,又怎能期待得到好的決策呢?!
5.2. 信息技術保證
采用先進的開發技術,開發出用戶界面比較友好的系統,減少操作員的錄入工作量和出現錯誤的可能性;同時在開發前要充分考慮用戶的需求,防止出現業務處理軟件不能滿足客戶要求、操作員采取違規操作的現象。
開發數據檢測、檢查工具,及時的發現數據質量問題,及時糾正,要知道,發現問題越早糾正的成本就會越低,壹個蟻穴不及時修補會造成千裏之的潰決。
5.3. 完善的制度管理
在企業上下建立起完善的數據負責制度,並與員工的績效和獎懲掛鉤,有條件的企業可以成立專門的組織和機構負責數據管理工作。