用數據庫來存儲數據,用機器學習的方法來分析數據,挖掘大量數據背後的知識,這兩者的結合促成了數據挖掘的產生。數據挖掘是壹門交叉性學科,涉及到人工智能、機器學習、數理統計、神經網絡、數據庫、模式識別、粗糙集、模糊數學等等多個領域。數據挖掘技術包括算法和技術,數據、建模能力3個主要部分。
數據挖掘的演進過程
數據挖掘其實是壹個逐漸演變的過程。電子數據處理的初期,人們就試圖通過某些方法來實現自動決策支持,當時機器學習成為人們關心的焦點。爾後,隨著神經網絡技術的形成和發展,人們的註意力轉向知識工程,專家系統就是這種方法所得到的成果。
20世紀80年代,人們在新的神經網絡理論的指導下,重新回到機器學習的方法上,並將其成果應用於處理大型商業數據庫,而且出現了壹個新的術語——KDD(Knowledge discovery in database,泛指從源數據中發掘模式或聯系的方法)。人們用KDD來描述整個數據發掘的過程,包括最開始的制定業務目標到最終的結果分析,而用數據挖掘(Data mining,簡稱DM)來描述使用挖掘算法進行數據挖掘的子過程。DM側重數據庫角度,KDD側重人工智能角度[1]。
數據挖掘的核心模塊技術歷經了數十年的發展,其中包括數理統計、人工智能、機器學習。數據挖掘技術在當前的數據倉庫環境中進入了實用階段。
數據挖掘的定義
數據挖掘的定義為“從數據庫中發現隱含的、先前不知道的、潛在有用的信息”,是在數據庫技術、機器學習、人工智能、統計分析、模糊邏輯、人工神經網絡和專家系統的基礎上發展起來的新概念和新技術,是指從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中提取隱含的、未知的、潛在的、有用的信息和知識的過程。更廣義的說法是[2]:數據挖掘意味著在壹些事實或觀察數據的集合中尋找模式的決策支持過程。
數據挖掘與傳統分析(如查詢、報表、聯機應用分析)的本質區別是,數據挖掘是在沒有明確假設的前提下去挖掘信息、發現知識。數據挖掘所得到的信息應具有先未知、有效和可實用3個特征。先前未知的信息是指該信息是預先未曾預料到的,即數據挖掘是要發現那些不能靠直覺發現的信息或知識,甚至是違背直覺的信息或知識,挖掘出的信息越是出乎意料,就可能越有價值。
馬克威分析系統簡介
馬克威分析系統是中國第壹套完全自主知識產權,集統計分析、數據挖掘和網絡挖掘於壹體的數據分析系統。它可以與現有的信息管理系統(MIS)進行集成,在保護現有設備的情況下,節約數據挖掘項目的開支。該系統由數據輸入、數據處理、統計分析、數據挖掘、統計制圖和電子報表等六大功能模塊組成,各模塊特點為:
(1)靈活多變的數據輸入方式。輸入方式包括從界面直接輸入、直接打開數據文件、使用數據向導將數據庫中的數據導入到分析平臺上等,並且與所有主流數據庫實現了無縫連接,例如Oracle、DB2、Sybase、SQLServer、Mysql、Informix、Access等。
(2)豐富的數據處理功能。包括數據合並、數據拆分、插入或刪除記錄、記錄處理、權重設置、多維查詢、分類匯總、數據抽樣、變量計算、缺失值填充、異常值刪除、記錄排序、變量類型轉換、行列轉換、隨機數生成等。
(3)統計分析是該系統的核心模塊之壹,有基礎統計和高級統計可選。基礎統計包括均值分析、交叉表、頻率分析、描述分析、壹元方差分析、參數T檢驗、單樣本T檢驗、獨立樣本T檢驗、配對樣本T檢驗、相關分析、非參數檢驗等;高級統計包括回歸分析、聚類分析、判別分析、因子分析、時間序列分析、多因素方差分析等。
(4)數據挖掘模塊提供了目前市場上較為完備的挖掘方法。包括神經網絡、決策樹、關聯規則、模糊聚類、粗糙集、支持向量機、孤立點分析等。
(5)數據信息的可視化是信息應用的發展趨勢。統計制圖模塊包括直線圖、條狀圖、柱狀圖、圓餅圖、面積圖、排列圖、誤差圖、序列圖、散點圖、自相關圖、互相關圖、控制圖等。
(6)統計報表模塊主要針對中國用戶。它將主要和常用的報表按照國家統計局的常規模式設定成格式,為用戶自動生成表格,包含內設的系統模板以及用戶自設的用戶模塊兩類。
水文現代化與數據挖掘
針對我國存在的洪澇災害、水資源短缺、水環境惡化、水土流失等有關水的問題,水利部提出了從傳統水利向現代水利、可持續發展水利轉變,以水資源的可持續利用支撐經濟社會可持續發展的治水新思路,並對水利現代化提出了基本要求[5]。
水文現代化
水文現代化是水利信息化的基礎。數字水文系統就是利用數據庫技術建立完善的信息處理和存儲體系;利用海量數據庫和數據挖掘技術建立信息提取和分析體系;利用地理信息系統等工具建立氣象、水文、地形地貌、植被、土壤水分、人類活動影響措施等信息的空間分布數字體系;利用中尺度數值預報模式和分布式水文模型建立數字化的空間和時間分布預報體系;依托網絡、地理信息系統和數據庫等技術,建立為防汛決策、專業應用、電子政務等提供決策支持的信息應用與服務體系。其核心在於如何形成數字化的、覆蓋整個指定地域空間的、多重時空尺度的、多種要素的、對水文分析有用的數據產品。
對於水文現代化而言,要形成與水利信息化相適應的信息服務能力,必須大力建設水文信息數據庫,使之成為水利信息資源的重要組成部分,包括兩層含義:壹是要豐富數據庫的內容;二是要對水文部門內部的各類信息資源進行集成,形成有壹定聚合度和服務目標的水文信息資源。分散在壹個個單獨部門的水文數據很難形成可以被開發利用的資源。
實施數據挖掘
實施數據挖掘壹般的步驟是:提出和理解問題→數據準備→數據整理→建立模型→評價和解釋[2]。
實施數據挖掘應從以下3個方面加以考慮:壹是用數據挖掘解決什麽樣的行業問題;二是為進行數據挖掘所做的數據準備;三是數據挖掘的各種分析算法。
數據挖掘的分析算法主要來自於統計分析和人工智能(機器學習、模式識別等)兩個方面。數據挖掘研究人員和數據挖掘軟件供應商在這壹方面所做的主要工作是優化現有的壹些算法,以適應大數據量的要求[4]。
數據挖掘最後是否成功,是否有經濟效益,數據準備至關重要。數據準備主要包含兩個方面:壹是從多種數據源去綜合數據挖掘所需要的數據,保證數據的綜合性、易用性、數據的質量和數據的時效性,這有可能要用到數據倉庫的思想和技術;另壹方面就是如何從現有數據中衍生出所需要的指標,這主要取決於數據挖掘者的分析經驗和工具的方便性。
3.3 數據挖掘中存在的問題
(1)數據挖掘的基本問題在於數據的數量及維數,數據結構也因此顯得非常復雜,如何選擇分析變量,是首先要解決的問題。
(2)面對積累起來的大量數據,現有的統計方法等都遇到了問題,人們直接的想法就是對數據進行抽樣。怎麽抽樣,抽取多大的樣本,又怎樣評價抽樣的效果,都是需要研究的問題。
(3)既然數據是海量的,那麽數據中就會隱含壹定的變化趨勢,在數據挖掘中也要對這個趨勢作出應有的考慮和評價。
(4)各種不同的模型如何應用,其效果如何評價。不同的人對同樣的數據進行挖掘,可能產生差異很大的結果,這就存在可靠性的問題。
(5)數據挖掘涉及到數據,也就涉及了數據的安全性問題。
(6)數據挖掘的結果是不確定的,要和專業知識相結合才能對其做出判斷[1]。
水文數據挖掘
水文綜合數據庫系統與服務平臺(水文數據中心)是以現代技術手段向用戶提供優質、高效水文信息***享服務的基本保障[5]。信息獲取與分析技術的快速發展,特別是遙測、遙感、網絡、數據庫等技術的應用,有力地促進了水文數據的采集和處理技術的發展,使之在時間和空間的尺度及要素類型上有了不同程度的擴展。由於水在人類生存發展中的特殊作用,因此應用各種新技術獲取水文數據,挖掘蘊藏於水文數據中的知識,已成為水文科學發展的新熱點。
水文數據挖掘可以應用決策樹、神經網絡、覆蓋正例排斥反例、概念樹、遺傳算法、公式發現、統計分析、模糊論等理論與技術,並在可視化技術的支持下,構造滿足不同目的的水文數據挖掘應用系統。
據統計,我國水文整編資料數據累計量已超過7 GB,加上進行水文預報所需的天氣、地理等數據,進行水文分析所需要處理的數據量很大。沿用傳統的技術工具和方法,從這些數量巨大、類型復雜的數據中及時準確地挖掘出所需要的知識,必然會因為計算能力、存儲能力、算法的不足而無能為力,因此需要高效的水文數據挖掘技術。
數據倉庫能把整個部門的數據,無論其地理位置、格式和通信要求,統統集成在壹起,便於最終用戶訪問並能從歷史的角度進行分析,最後做出戰略決策。數據挖掘技術可從大量數據中發現潛在的、有價值的及未知的關系、模式和趨勢,並以易被理解的方式表示出來[3]。
需要強調的是,要想真正做好數據挖掘,數據挖掘工具只是其中的壹個方面,數據挖掘的成功要求對期望解決問題的領域(如水文領域)有深刻的了解,理解該領域要素數據的屬性,了解其采集的過程,同時還需要對該領域的業務有足夠的數據分析經驗。
更多關於工程/服務/采購類的標書代寫制作,提升中標率,您可以點擊底部官網客服免費咨詢:/#/?source=bdzd