2.數據倉庫是集成的,數據倉庫中的數據來自分散的運營數據。從原始數據中提取所需數據,進行加工整合,然後統壹整合,再進入數據倉庫;
數據倉庫中的數據是在對原始分散的數據庫數據進行提取和清理的基礎上,經過系統的加工、匯總和整理而得到的。必須消除源數據中的不壹致性,以確保數據倉庫中的信息是壹致的,並且是關於整個企業的全局信息。
數據倉庫中的數據主要用於企業決策分析,涉及的數據操作主要是數據查詢。某個數據壹旦進入數據倉庫,壹般會保存很長時間,即數據倉庫中有大量的查詢操作,但很少有修改和刪除操作,通常只需要定期加載和刷新即可。
數據倉庫中的數據通常包含歷史信息,系統地記錄了企業從過去某壹點(如數據倉庫應用的時間)到當前各階段的信息。通過這些信息,可以定量分析和預測企業的發展過程和未來趨勢。
3.無法更新數據倉庫。數據倉庫主要為決策分析提供數據,涉及的操作主要是數據查詢。
4.數據倉庫是隨時間變化的,傳統的關系數據庫系統更適合處理格式化數據,能更好地滿足商業業務處理的需要。穩定數據以只讀格式存儲,不隨時間變化。
5.總結。操作數據被映射成可用於決策的格式。
6.容量大。時間序列數據集通常非常大。
7.非標準化。數據倉庫數據可能是而且經常是冗余的。
8.元數據。保存描述數據的數據。
9.數據來源。數據來自內部和外部非集成的操作系統。
數據倉庫不是所謂的“大型數據庫”,它是為了進壹步挖掘數據資源,滿足決策的需要而產生的。數據倉庫方案構建的目的是作為前端查詢和分析的基礎。由於其更大的冗余,它需要更多的存儲。為了更好地服務於前端應用程序,數據倉庫通常具有以下特征:
1.足夠高效。數據倉庫的分析數據壹般分為日、周、月、季、年等。可見日周期的數據要求效率最高,要求客戶在24小時內甚至12小時內看到昨天的數據分析。由於壹些企業的日常數據量很大,設計很差的數據倉庫往往會出現問題,延遲1-3天給出數據顯然不可行。
2.數據質量。數據倉庫提供的各種信息必須準確,但由於數據倉庫的過程通常分為多個步驟,包括數據清洗、加載、查詢、展示等。,復雜的架構會有更多的層次,所以因為數據源有臟數據或者代碼不嚴謹,會導致數據失真,客戶可能會看到錯誤的信息,分析錯誤的決策,造成損失而不是收益。
3.擴展性。壹些大型數據倉庫系統的架構設計之所以復雜,是考慮到未來3-5年的可擴展性,讓數據倉庫系統在未來能夠穩定運行,而不需要花費太多的資金去重新構建。主要體現在數據建模的合理性上,數據倉庫方案中有更多的中間層,讓海量的數據流有足夠的緩沖,這樣數據量不會大很多,也不會運行。
從上面的介紹可以看出,數據倉庫技術可以喚醒企業多年積累的數據,不僅可以為企業管理這些海量數據,還可以挖掘數據的潛在價值,從而成為通信企業運維系統的亮點之壹。正因為如此,
從廣義上講,基於數據倉庫的決策支持系統由三部分組成:數據倉庫技術、聯機分析處理技術和數據挖掘技術,其中數據倉庫技術是系統的核心。在本系列的後續文章中,將圍繞數據倉庫技術介紹現代數據倉庫的主要技術和數據處理的主要步驟,並討論如何在通信運維系統中使用這些技術來幫助運維。
4.面向主題
操作數據庫的數據組織面向事務處理任務,各個業務系統是分離的,而數據倉庫中的數據是按照壹定的主題域組織的。主題是與傳統數據庫面向應用相對應的抽象概念,是在更高層次上對企業信息系統中的數據進行綜合、分類和分析的抽象。每個主題對應壹個宏分析字段。數據倉庫排除了對決策無用的數據,並提供了特定主題的簡明視圖。