古詩詞大全網 - 成語大全 - 什麽叫數據挖掘?

什麽叫數據挖掘?

數據挖掘(Data Mining)是指通過大量數據集進行分類的自動化過程,以通過數據分析來識別趨勢和模式,建立關系來解決業務問題。換句話說,數據挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。

原則上講,數據挖掘可以應用於任何類型的信息存儲庫及瞬態數據(如數據流),如數據庫、數據倉庫、數據集市、事務數據庫、空間數據庫(如地圖等)、工程設計數據(如建築設計等)、多媒體數據(文本、圖像、視頻、音頻)、網絡、數據流、時間序列數據庫等。也正因如此,數據挖掘存在以下特點:

(1)數據集大且不完整

數據挖掘所需要的數據集是很大的,只有數據集越大,得到的規律才能越貼近於正確的實際的規律,結果也才越準確。除此以外,數據往往都是不完整的。

(2)不準確性

數據挖掘存在不準確性,主要是由噪聲數據造成的。比如在商業中用戶可能會提供假數據;在工廠環境中,正常的數據往往會收到電磁或者是輻射幹擾,而出現超出正常值的情況。這些不正常的絕對不可能出現的數據,就叫做噪聲,它們會導致數據挖掘存在不準確性。

(3)模糊的和隨機的

數據挖掘是模糊的和隨機的。這裏的模糊可以和不準確性相關聯。由於數據不準確導致只能在大體上對數據進行壹個整體的觀察,或者由於涉及到隱私信息無法獲知到具體的壹些內容,這個時候如果想要做相關的分析操作,就只能在大體上做壹些分析,無法精確進行判斷。

而數據的隨機性有兩個解釋,壹個是獲取的數據隨機;我們無法得知用戶填寫的到底是什麽內容。第二個是分析結果隨機。數據交給機器進行判斷和學習,那麽壹切的操作都屬於是灰箱操作。