數據處理是對采集到的數據進行加工整理?
數據處理是指對采集到的數據進行加工整理,形成適合數據分析的樣式,保證數據的壹致性和有效性。它是數據分析前必不可少的階段。數據處理的基本目的是從大量的、可能雜亂無章的、難以理解的數據中抽取並推導出對解決問題有價值、有意義的數據。如果數據本身存在錯誤,那麽即使采用最先進的數據分析方法,得到的結果也是錯誤的,不具備任何參考價值,甚至還會誤導決策。數據處理主要包括數據清洗、數據轉化、數據抽取、數據合並、數據計算等處理方法。壹般的數據都需要進行壹定的處理才能用於後續的數據分析工作,即使再“幹凈”的原始數據也需要先進行壹定的處理才能使用。現實世界中的數據大體上都是不完整、不壹致的臟數據,無法直接進行數據分析,或分析結果不盡如人意。數據預處理有多種方法:數據清理、數據集成、數據變換、數據歸約等。把這些影響分析的數據處理好,才能獲得更加精確的分析結果。以大眾最近關心的空氣質量數據為例,很可能其中有很多天的數據由於設備的原因是沒有監測到的,有壹些數據是記錄重復的,還有壹些數據是設備故障時監測無效的。那麽需要用相應的方法去處理,如殘缺數據,是直接去掉這條數據,還是用臨近的值去補全,這些都是需要考慮的問題。當然在這裏我們還可能會進行數據分組、基本描述統計量的計算、基本統計圖形的繪制、數據取值的轉換、數據的正態化處理等,通過這些操作掌握數據的分布特征,以幫助我們進壹步深入分析和建模。