(中國石化股份有限公司西南油氣分公司信息中心檔案)
針對非結構化數據管理中存在的問題,分析了西南油氣田地質檔案非結構化數據管理的特點,提出了數據采集、數據存儲、數據管理和數據利用的技術框架,並對非結構化數據的管理和應用進行了深入分析,總結出技術解決方案、行政管理模式和數據服務三位壹體的管理模式,探索了油田地質檔案非結構化數據管理和應用的有效模式。
關鍵詞非結構化數據存儲;地質文件;應用管理
0簡介
隨著我國經濟建設的不斷發展,信息資源日益成為企業或組織的核心和生命線。對於信息密集型的石油行業來說尤其如此。在多年的生產實踐中,國內石油行業發展了大部分信息的綜合數據管理、數據應用、企業標準、行業標準等技術和成果,極大地支撐了石油勘探開發的各個流程。但與國外石油公司相比,在信息資源協同、分析、挖掘、* *共享、決策支持、集群計算等方面還存在壹定差距。核心點是如何有效存儲和利用非結構化數據。
對於壹個典型的石油行業企業來說,信息資源存在於各種載體中,如紙質書籍或紙張、PDF文檔、圖形和圖像文件、掃描文檔、電子書、光盤等。,而這些信息最終可以轉化為非結構化數據。非結構化信息的管理需要面對以下問題:
高容量:非結構化數據通常是壹個或多個文檔、地圖、多媒體等。,而且容量無處不在,以百兆字節和千兆字節計。
異構性:非結構化數據的來源、格式和載體都不壹樣,很難統壹管理和檢索。
復雜性:非結構化數據由於其高容量和異構性,在存儲、檢索、過濾、提取、分析和挖掘方面非常復雜。
再加工:非結構化數據在定制、交換、加密等方面有大量的個性化需求,格式的差異和多樣性也使得這些數據的再加工非常困難。
本文對這些問題進行了詳細的探討和研究,並結合油氣田地質檔案中非結構化數據的存儲和利用,探討了壹種可行的方法和合理的解決方案。
1非結構化數據管理的技術架構
非結構化數據是相對於結構化數據而言的,是指不方便用數據庫的二維邏輯表來表示的數據,稱為非結構化數據,包括所有格式的office文檔、文本、圖片、XML、HTML、各種報表、圖像和音視頻信息。
西南油氣田通過軟硬件產品的配置和集成,設計並實現了壹個適合非結構化數據存儲和利用的技術框架,從低到高,包括數據采集(預處理)、數據存儲、數據管理和數據使用(圖1)。
圖1非結構化數據存儲和利用的技術架構
數據獲取是非結構化數據管理最基本的過程,是將原始或第壹手數據轉化為數字信息進行處理的關鍵步驟。
非結構化數據存儲是將勘探、科研、生產和管理中產生的文檔、地圖和專著存儲在數據庫或文件服務器中。壹般有兩種方式:壹種是將非結構化數據轉換成二進制流,存儲在關系數據庫中,同時記錄相關輔助信息(可定制);二是將非結構化數據保存到目錄服務器,關系數據庫中只記錄目錄服務器上的索引信息和輔助信息(可定制)。圖2說明了這兩種方式。
圖2非結構化數據存儲示意圖
數據管理是對成功存儲和結構化的信息進行再加工,包括數據分類、檢索、元數據、標準化、統計和合並。
數據使用是非結構化數據管理的最終目標。如果信息不能交流和共享,那麽壹個組織無論產生多少信息,都不可避免地成為壹個信息孤島。基於的架構。net和Web服務為信息共享和協作提供了技術保障。
2非結構化數據管理的應用分析
根據非結構化數據管理技術框架,西南油氣田開發建立了西南油氣田地質數據管理平臺系統,實現了非結構化數據管理的六大功能:非結構化數據整理、元數據、基於索引服務器的全文檢索、索引、任務管理和知識管理(表1)。
表1中國石化西南油氣田非結構化數據管理功能統計表
2.1非結構化數據管理的功能架構
西南油氣田地質數據管理平臺是壹個完整的B/S模式的數據管理系統和信息發布系統,其中地質數據管理系統包括用戶管理、組織管理、權限管理、日誌管理、數據管理、數據上傳、數據整理、數據審核、元數據和數據檢索。信息發布系統包括數據借閱、數據上傳、在線瀏覽、數據檢索和下載。
除了數據管理和信息發布的功能外,根據自身的工作方式,平臺還增加了企業元素,如:數據屬性的定制、用戶功能的選擇、借閱歸檔壹體化流程的植入、上傳下載的壓縮加密、用戶和安全方案的自動綁定、新到數據的查詢、個性化報表的查詢打印、提醒信息的發布等。主要功能架構如圖3所示。
圖3功能架構圖
2.2西南油氣田地質數據非結構化數據管理的主要特點
地質數據和文件的打包和結構化
在數據存儲方面,采用了基於Web服務的數據訪問層組件。通過修改設置,可以分別連接Oracle 9 i數據庫、SQL Server 2000數據庫等各種數據庫,用戶可以根據需要進行選擇。地質數據和文檔的打包和結構化是指數據采集和存儲采用“數據體-文件體”的二進制打包模式。所有類型的文件或文件集合都可以定義為數據體,元數據用來描述數據體;從邏輯上講,數據體是壹個或多個文件實體的集合。這樣就統壹了各種非結構化數據的表達、外觀和行為,有利於未來的數據交換和協作。圖4描述了這種二元關系。
圖4非結構化數據的二進制打包方法
任務管理
當文檔被收集並提交後,數據體和元數據信息將被寫入關系數據庫(目前支持Oracle),文件體將通過任務自動上傳到專用文件服務器,索引服務將自動為該文件體創建索引。倉儲文件和材料的默認存儲方式是磁盤文件。如果倉儲文檔和資料需要以二進制流的形式存儲在關系數據庫中,就需要部署和配置數據持久化服務。圖5給出了文檔收集和存儲過程的直觀描述。
圖5文檔數據收集和存儲的任務管理流程
任務管理就是上傳和下載的任務。為了滿足文檔采集的需求,采用上傳任務來管理上傳過程,整個過程可以通過服務在後臺自動完成,不影響用戶的操作,避免了傳統文件采集過程中用戶需要花費大量時間等待上傳的情況;為了保證數據的完整性,上傳過程支持斷點續傳。直觀的上傳任務管理器將需要上傳的文檔存儲在任務隊列中,用戶可以隨時停止或啟動上傳任務,最大限度地減少網絡條件或容量問題帶來的不便。
元數據的定義和描述
在數據采集過程中,可以為文件定義元數據,文件的元數據繼承於文件的屬性,這樣壹旦將文件歸類到某個數據類別,就可以設置文件的擴展信息;另壹方面,分類元數據格式可以成為該類文件的元數據模板,相似文件的元數據格式相同,便於相似素材的數據交換。圖6說明了文件(數據類型)、文件和元數據之間的關系。
元數據作為非結構化數據的標簽,意義重大。系統檢索功能的查全率和查準率主要基於元數據的定義是否合理和準確。因此,系統必須提供修改和動態擴展元數據信息的功能。只有提供以上功能,系統的信息描述才能準確豐富,這也是很多類似信息系統所缺乏的。
圖6文件、文檔和元數據之間的關系
根據中國石化企業標準Q/SH0167—2008《石油天然氣勘探開發地質資料歸檔規則》,根據地質資料管理的特點,結合西南油氣田的實際情況和需求分析,定義了各項功能(系統管理、數據加載和在線瀏覽、數據查詢、數據借閱和下載、數據銷毀、數據壓縮和加密、數據審核、數據接收和分發)。充分研究和定義了地質數據的文件元數據、文件元數據和企業擴展元數據,定義了不同類型地質數據的不同屬性,便於查詢和借閱。例如,表2。
表2地質數據元數據屬性表
2.2.4基於文件索引服務器的全文檢索
非結構化數據的檢索方式有兩種:基於屬性和關鍵字的精確檢索和基於內容的全文檢索。全文檢索的過程通過提交、索引、搜索、組織結果和返回來完成。當非結構化數據被提交到文件服務器時,索引服務程序創建或更新索引文件(自動過程)。當用戶發送檢索請求時,搜索引擎獲得包含所請求內容的結果,並將其返回給請求者。索引服務程序可以從存儲的文檔中自動提取文本內容(圖7)。
索引服務程序的工作包括:檢測文件目錄的變化,當文件被上傳、移動、修改或刪除時,更新相應的索引;定期優化文件目錄全範圍的索引,保證索引的全局有效性和高效性。這項工作可以由用戶自動或手動完成。
基於此,西南油氣田提供了模糊查詢、全文查詢、精確查詢、目錄瀏覽、全文瀏覽等多種邏輯查詢。如圖8所示。
圖7全文檢索的工作流程
圖8查詢檢索截圖
2.3非結構化管理在西南油氣田的應用效果
自2005年以來,西南油氣田開始了地質數據的非結構化數據建設。經過多年的共同努力,完成了地質數據非結構化目錄數據庫建設,統計地質數據項654.38+0.25萬條,完成了不同類型地質數據的元素數據設計,全面提取了屬性,包括文件元數據、歸檔元數據和企業擴展元數據,提供了地質數據的網絡化管理和利用。
同時,根據非結構化數據建設理論,西南油氣田積極開展地質數據全文數據庫和地質圖形數據庫建設。通過對歷史文件和圖形的掃描整理,已存儲電子文件24萬份,總容量2.9 T。結合油田天然氣地質數據目錄數據庫,通過地質數據管理系統,實現地質數據非結構化數據網絡的完整發布和綜合應用。
據統計分析,實現非結構化數據網絡化管理和應用後,西南油氣田近五年地質資料年均利用率高達110000條/年,是建成前的4.5倍,有效提高了地質檔案的管理和利用水平,節約了成本,取得了良好的經濟效益。
3非結構化數據管理模式的探索
作為企業信息資源的表現形式,非結構化數據的管理不僅是壹個技術體系或系統,更是壹個龐大的系統工程。筆者基於多年西南油氣田地質檔案信息化建設和非結構化數據管理經驗,認為“技術解決方案、行政管理模式、數據服務”三位壹體的管理模式是油氣田非結構化數據管理的有效模式(如圖9)。
圖9非結構化數據管理模式圖
首先,行政管理模式是整個非結構化數據管理的組織保障,由穩定的管理團隊、完整的可行性研究、明確的管理需求、充分的風險評估和務實的組織實施構成。壹個好的行政管理模式能夠保證壹個組織能夠協同推進信息系統的建設,可以說決定了整個系統建設的成敗。
數據服務是非結構化數據信息管理的基礎。它是指收集、創建、處理、傳輸、組織、整理和標準化非結構化數據的過程。同時也是用戶和開發者之間的潤滑劑。第壹,它可以根據用戶的需求,為用戶處理大量枯燥的數據整理和標準化工作。其次,從用戶的角度指出軟件的缺陷,督促開發者修改。通過數據服務,可以有效保障用戶業務的高效運行和技術體系的不斷完善,發揮信息系統建設的最大效率。
技術方案從產品層面為非結構化數據的管理提供了軟硬件平臺,是從數據采集到應用的完整技術體系。包括:基於各種大型關系數據庫的信息存儲系統、基於非結構化數據的文件服務器、提供全文檢索和關聯檢索的索引服務器、基於元數據的靈活文件交換格式、個性化定制、靈活的權限策略和強大的安全策略;技術解決方案是非結構化數據存儲和利用的核心。
4結論
非結構化數據存儲和應用是各油田分公司勘探決策支持系統的重要組成部分。該部分開發成功後,可以為決策支持所需的信息資源提供壹個基礎平臺。同時,基於該平臺的非結構化數據的應用可以直接服務於決策支持系統。通過信息協同、文檔檢索、數據挖掘、知識管理等技術和理念的應用,可以縮短油氣田的信息化建設時間,甚至達到國際先進水平,向勘探數字化、數據資本化、工作協同化、決策科學化邁進壹大步,從而帶來巨大的經濟效益和社會效益。
參考
魏堯張誌剛。論海量非結構化數據的存儲[J].中國檔案,2009(8)。
、王、、、。海量結構化數據存儲與檢索系統[J].計算機研發,2011(7)。