根據數據倉庫的概念,數據倉庫有以下四個特征:
1,主題導向。操作數據庫的數據組織面向事務處理任務,各個業務系統是分離的,而數據倉庫中的數據是按照壹定的主題域組織的。主題是壹個抽象的概念,是指用戶使用數據倉庫進行決策時所關心的關鍵方面。壹個主題通常與多個操作信息系統相關。
2.綜合的。面向事務的操作數據庫通常與壹些特定的應用相關,並且這些數據庫相互獨立,通常是異構的。數據倉庫中的數據是在提取和清理原始分散的數據庫數據的基礎上,經過系統的加工、匯總和整理而得到的。必須消除源數據中的不壹致性,以確保數據倉庫中的信息是壹致的,並且是關於整個企業的全局信息。
3.相對穩定。運行數據庫中的數據通常是實時更新的,數據會根據需要及時更改。數據倉庫中的數據主要用於企業決策分析,涉及的數據操作主要是數據查詢。某個數據壹旦進入數據倉庫,壹般會保存很長時間,即數據倉庫中有大量的查詢操作,但很少有修改和刪除操作,通常只需要定期加載和刷新即可。
4.反映歷史變遷。運營數據庫主要關註的是某壹段時間內的當前數據,而數據倉庫中的數據通常包含歷史信息,系統地記錄了企業從過去某壹點(如數據倉庫應用的時間)到目前各個階段的信息。通過這些信息,可以定量分析和預測企業的發展過程和未來趨勢。
企業數據倉庫的建設是基於現有的企業業務系統和大量業務數據的積累。數據倉庫不是壹個靜態的概念。只有及時向需要信息的用戶提供信息,以便他們做出決策來改善業務運營,信息才能發揮作用並發揮作用。對信息進行整理、匯總和重組,並及時提供給相應的管理決策者,是數據倉庫的根本任務。因此,從行業的角度來看,數據倉庫的建設是壹個項目,壹個過程。
整個數據倉庫系統是壹個四層架構,具體如下圖所示。
數據倉庫系統架構
數據源:它是數據倉庫系統的基礎,是整個系統的數據源。通常包括內部信息和外部信息。內部信息包括存儲在RDBMS中的各種業務處理數據和各種文檔數據。外部信息包括各種法律法規、市場信息和競爭對手的信息等。
數據存儲和管理:它是整個數據倉庫系統的核心。數據倉庫的真正關鍵是數據的存儲和管理。數據倉庫的組織和管理模式決定了它不同於傳統數據庫,也決定了它對外數據的表達形式。為了決定采用什麽產品和技術來建立數據倉庫的核心,有必要分析數據倉庫的技術特征。對現有業務系統的數據進行提取、清洗、有效整合,並按照主題進行組織。根據數據的覆蓋範圍,數據倉庫可以分為企業級數據倉庫和部門級數據倉庫(通常稱為數據集市)。
OLAP服務器:有效整合分析所需數據,按照多維度模型組織,進行多角度多層次分析,發現趨勢。其具體實現可分為ROLAP、MOLAP和HOLAP。ROLAP基礎數據和聚合數據存儲在RDBMS中;MOLAP基礎數據和聚合數據存儲在多維數據庫中;HOLAP基礎數據存儲在RDBMS中,聚集數據存儲在多維數據庫中。
前端工具:主要包括各種報表工具、查詢工具、數據分析工具、數據挖掘工具以及基於數據倉庫或數據集市的各種應用開發工具。其中,數據分析工具主要針對OLAP服務器,報表工具和數據挖掘工具主要針對數據倉庫。