什麽是數據挖掘,簡述其作用和應用。
數據挖掘(Data Mining),就是從存放在數據庫,數據倉庫或其他信息庫中的大量的數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。 1)數據挖掘能做以下七種不同事情(分析方法): 數據挖掘· 分類 (Classification) · 估值(Estimation) · 預言(Prediction) · 相關性分組或關聯規則(Affinity grouping or association rules) · 聚集(Clustering) · 描述和可視化(Description and Visualization) · 復雜數據類型挖掘(Text, Web ,圖形圖像,視頻,音頻等) 2)數據挖掘分類 以上七種數據挖掘的分析方法可以分為兩類:直接數據挖掘;間接數據挖掘 · 直接數據挖掘 目標是利用可用的數據建立壹個模型,這個模型對剩余的數據,對壹個特定的變量(可以理解成數據庫中表的屬性,即列)進行描述。 · 間接數據挖掘 目標中沒有選出某壹具體的變量,用模型進行描述;而是在所有的變量中建立起某種關系 。 · 分類、估值、預言屬於直接數據挖掘;後三種屬於間接數據挖掘 3)各種分析方法的簡介 · 分類 (Classification) 首先從數據中選出已經分好類的訓練集,在該訓練集上運用數據挖掘分類的技術,建立分類模型,對於沒有分類的數據進行分類。 例子: a. 信用卡申請者,分類為低、中、高風險 b. 故障診斷:中國寶鋼集團與上海天律信息技術有限公司合作,采用數據挖掘技術對鋼材生產的全流程進行質量監控和分析,構建故障地圖,實時分析產品出現瑕疵的原因,有效提高了產品的優良率。 註意: 類的個數是確定的,預先定義好的 · 估值(Estimation) 估值與分類類似,不同之處在於,分類描述的是離散型變量的輸出,而估值處理連續值的輸出;分類 數據挖掘的類別是確定數目的,估值的量是不確定的。 例子: a. 根據購買模式,估計壹個家庭的孩子個數 b. 根據購買模式,估計壹個家庭的收入 c. 估計real estate的價值 壹般來說,估值可以作為分類的前壹步工作。給定壹些輸入數據,通過估值,得到未知的連續變量的值,然後,根據預先設定的閾值,進行分類。例如:銀行對家庭貸款業務,運用估值,給各個客戶記分(Score 0~1)。然後,根據閾值,將貸款級別分類。 · 預言(Prediction) 通常,預言是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用於對未知變量的預言。從這種意義上說,預言其實沒有必要分為壹個單獨的類。預言其目的是對未來未知變量的預測,這種預測是需要時間來驗證的,即必須經過壹定時間後,才知道預言準確性是多少。 例子: 海南航空引入領先的數據挖掘工具馬克威分析系統,分析客流、燃油等變化趨勢,以航線收益為主題進行數據挖掘,制定精細的銷售策略,有效提高了企業收益。 · 相關性分組或關聯規則(Affinity grouping or association rules) 決定哪些事情將壹起發生。 例子: a. 超市中客戶在購買A的同時,經常會購買B,即A => B(關聯規則) b. 客戶在購買A後,隔壹段時間,會購買B (序列分析) · 聚集(Clustering) 聚集是對記錄分組,把相似的記錄在壹個聚集裏。聚集和分類的區別是聚集不依賴於預先定義好的類,不需要訓練集。 例子: a. 壹些特定癥狀的聚集可能預示了壹個特定的疾病 b. 租VCD類型不相似的客戶聚集,可能暗示成員屬於不同的亞文化群 聚集通常作為數據挖掘的第壹步。例如,"哪壹種類的促銷對客戶響應最好?",對於這壹 類問題,首先對整個客戶做聚集,將客戶分組在各自的聚集裏,然後對每個不同的聚集,回答問題,可能效果更好。 c. 中國移動采用先進的數據挖掘工具馬克威分析系統,對用戶wap上網的行為進行聚類分析,通過客戶分群,進行精確營銷。 · 描述和可視化(Des cription and Visualization) 來源:網界網論壇 是對數據挖掘結果的表示方式。