古詩詞大全網 - 成語經典 - 數據倉庫和元數據管理

數據倉庫和元數據管理

前言交易處理系統中的數據主要用於記錄和查詢業務情況。隨著數據倉庫技術的不斷成熟,企業的數據逐漸成為決策的主要依據。數據倉庫(Data warehouse)是壹個面向決策的主題,是壹個具有當前和歷史匯總數據、面向閱讀的數據庫系統。其目的是支持決策。數據倉庫要根據決策的需要,從企業內部和外部收集相關數據,並使之適當。組織處理可以有效地為決策過程提供信息。數據倉庫中的數據是從許多業務處理系統中提取和轉換的。對於如此復雜的企業數據環境,以安全高效的方式管理和訪問它們尤為重要。解決這個問題的關鍵是科學有效地管理元數據。元數據是關於數據操作過程以及應用程序的結構和重要性的描述性信息。它的主要目標是提供壹個全面的數據資源指南。元數據不僅定義了數據倉庫中數據的模式來源、提取和轉換規則,而且整個數據倉庫系統的操作都是以元數據為基礎的,它將數據倉庫系統中所有松散的組件連接起來,形成壹個有機的整體。本文首先介紹了元數據的定義、功能和意義,然後討論了數據倉庫系統中元數據管理的現狀和問題。元數據的標準化最終提出了建立元數據管理系統的步驟和實現方法。按照傳統的定義,元數據是關於數據的數據。在數據倉庫系統中,元數據可以幫助數據倉庫管理員和數據倉庫開發人員非常方便地找到他們關心的數據。元數據描述了數據倉庫中數據的結構和建立方法。根據目的的不同,數據倉庫的數據可以分為兩類:技術元數據和業務元數據。技術元數據是存儲數據倉庫系統技術細節的數據,用於開發和管理數據倉庫。主要包括以下信息&;# ;數據倉庫結構的描述包括倉庫模式視圖維度的層次結構、導出數據的定義以及數據集市的位置和內容。# ;商業系統中數據倉庫和數據集市的體系結構和模式&;# ;用於匯總的算法包括度量和維度定義算法、數據粒度、主題區域聚合和匯總、預定義的查詢和報告& amp;# ;從操作環境到數據倉庫環境的映射包括源數據及其內容、數據劃分、數據提取、清洗、轉換規則和數據刷新規則。安全(用戶授權和訪問控制)業務元數據從業務角度描述了數據倉庫中的數據。它在用戶和實際系統之間提供了壹個語義層,讓不懂計算機技術的業務人員也能讀懂數據倉庫中的數據。業務元數據主要包括信息用戶的業務術語中表示的數據模型對象名稱和屬性名稱,訪問數據的原理和數據的來源,系統提供的分析方法,公式和報表的信息具體包括以下信息&;# ;企業概念模型這是業務元數據應該提供的重要信息。它表示企業數據模型的高層信息,以及整個企業的業務概念和關系。基於這種企業模型,不懂數據庫技術和SQL語句的業務人員也能對數據倉庫中的數據了如指掌。# ;多維數據模型是企業概念模型的重要組成部分,它告訴業務分析師數據集市中有哪些維度、數據立方體以及數據集市中的聚集規則。這裏的數據立方體表示某個主題領域中業務事實表和維度表的多維組織形式。# ;業務概念模型與物理數據的依賴關系上面提到的業務元數據只是代表了數據的業務視圖,這些業務視圖與實際數據倉庫或數據庫多維數據庫中表字段的維度層次結構的對應關系也要體現在元數據知識庫中。在數據倉庫系統中,元數據機制主要支持以下五類系統管理功能(1)。數據倉庫中有哪些數據?(2)定義要進入數據倉庫的數據和從數據倉庫生成的數據。(3)根據業務事件的發生,記錄數據提取的工作進度。(4)記錄和檢測系統數據壹致性的要求和實現情況。(5)測量數據質量。數據倉庫與其說是壹個軟件開發項目,不如說是壹個系統集成項目[]。因為它的主要工作是將所需的數據倉庫工具集成在壹起,完成數據提取、轉換、加載、OLAP分析和數據挖掘,如圖所示,其典型結構由運行環境層、數據倉庫層和業務層組成,其中第壹層(運行環境層)是指整個企業中與業務相關的OLTP系統和壹些外部數據源,第二層是通過將第壹層的相關數據提取到壹個中心區域來實現的。數據倉庫層的第三層是業務層圖,由各種工具組成,完成對業務數據的分析。圖的左邊是元數據管理,在以下幾個方面起到承上啟下的作用。# ;易於集成&;# ;提高系統的靈活性&;# ;確保數據質量& amp;# ;為了幫助用戶理解數據的含義,數據倉庫中元數據管理的現狀主要有兩個任務:壹是存儲和維護元數據數據庫中的元數據,二是負責數據倉庫的建模工具、數據采集工具和前端工具之間的消息傳遞,協調各模塊和工具之間的工作。從上面幾節中,我們知道元數據幾乎可以稱為數據倉庫,甚至可以稱為商業智能(BI)系統。靈魂正是因為元數據在數據倉庫的整個生命周期中起著重要的作用。各廠商的數據倉庫解決方案都提到了元數據的管理,但遺憾的是,所有的解決方案都沒有明確提出完整的元數據管理模型。它們只提供特定本地元數據的管理。當前市場上與元數據相關的主要工具如圖,如圖。按照倉庫工具大致可以分為四類數據抽取工具,將業務系統的數據抽取和轉換集成到數據倉庫中,如Ardent的DataStage CA(原Platinum)的Decision Base和ETI的extract等這些工具只提供技術元數據,幾乎不提供對業務元數據的支持。前端演示工具包括OLAP分析。報表和商業智能工具,如MicroStrategy的DSS代理Cognos,PowerPlay Business Objects的BO和布裏奧,通過將關系表映射到與業務相關的事實表和維度表來支持多維業務視圖,然後對數據倉庫中的數據進行多維分析。這些工具都提供了業務元數據和技術元數據。對應的語義層建模工具是面向非技術人員的業務建模工具。這些工具可以提供與具體業務相關的更高層語義,比如CA的ERwin Sy ***等。ase PowerDesigner、Rational Rose等元數據存儲工具通常存儲在壹個專門的數據庫中,這個數據庫就像壹個黑匣子。不可能知道這些工具使用和生成的元數據是如何存儲的。還有壹種工具叫元數據庫,獨立於其他工具。數據提供了壹個集中的存儲空間,包括元數據管理的標準化,如Microsoft Repository CA、Repository Ardent MetaStage和Sybase WCC。方圓元數據管理困難的壹個重要原因是缺乏統壹的標準。在這種情況下,各個公司的元數據管理方案是不壹樣的。近年來,隨著MDC(元數據聯盟)的開放信息模型OIM(元數據聯盟)和OMG組織的public * * * CWM(公共倉庫模型)標準的逐步完善以及MDC和OMG組織的合並,為數據倉庫廠商提供了統壹的標準,從而為元數據管理鋪平了道路。從元數據的發展歷史不難看出,元數據管理的方法主要有兩種()。對於相對簡單的環境,按照常見的元數據管理標準()建立集中式的元數據知識庫對於較復雜的環境,建立各部分的元數據管理體系,形成分布式的元數據知識庫,然後通過建立標準的元數據交換格式,實現元數據的集成管理。下面分別介紹MDC的OIM標準和OMG的CWM標準,MDC的OIM存儲模型,成立於2000年,致力於與廠商建立關系。獨立於特定技術的企業元數據管理標準的非營利性技術聯盟。該聯盟有幾個成員,包括微軟和IBM等著名的軟件制造商。MDC接受了微軟使用OIM作為元數據標準的提議。OIM的目的是通過公共元數據信息支持不同工具和系統之間的數據。享受和重用它涉及到信息系統的所有階段(從設計到發布)。通過元數據類型的標準描述,可以共享工具和知識庫之間的數據。OIM聲明的元數據類型由UML(通用建模語言)描述,並組織成易於使用和擴展的多個主題領域。這些主題領域包括&;# ;分析與設計主要用於軟件的分析、設計和建模。本主題的範圍進壹步劃分為UML包(UML擴展包、通用元素包、通用數據類型包和實體關系建模包等。# ;對象和組件涉及面向對象開發技術的各個方面。本主題的範圍僅包括組件描述建模包& #;數據庫和倉儲為數據庫模式管理、重用和構建數據倉庫提供了元數據概念支持。本主題的範圍進壹步劃分為關系數據庫模式、OLAP模式和數據轉換。Rmations)封裝面向記錄的數據庫模式、模式、報告定義等。# ;商業工程為企業運營提供藍圖。本主題的範圍進壹步分為業務目標包、組織元素包、業務規則包、業務流程包等。# ;知識管理涉及企業的信息結構。本題範圍進壹步分為知識描述(知識立世新知/文章/程序/甲骨文/201311/18587)。