數據分析是指用適當的統計分析方法對收集來的大量數據進行分析。
數據分析的數學基礎在20世紀早期就已確立,但直到計算機的出現才使得實際操作成為可能,並使得數據分析得以推廣。數據分析是數學與計算機科學相結合的產物。定性數據中表現為類別,但不區分順序的,是定類數據,如性別、品牌等;定性數據中表現為類別,但區分順序的,是定序數據,如學歷、商品的質量等級等。
數據分析是指用適當的統計分析方法對收集來的大量數據進行分析,將它們加以匯總和理解並消化,以求最大化地開發數據的功能,發揮數據的作用。數據分析是為了提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。
數據分析的類型
1、探索性數據分析
探索性數據分析是指為了形成值得假設的檢驗而對數據進行分析的壹種方法,是對傳統統計學假設檢驗手段的補充。該方法由美國著名統計學家約翰·圖基命名。
2、定性數據分析
定性數據分析又稱為“定性資料分析”、“定性研究”或者“質性研究資料分析”,是指對諸如詞語、照片、觀察結果之類的非數值型數據(或者說資料)的分析。
3、離線數據分析
離線數據分析用於較復雜和耗時的數據分析和處理,壹般通常構建在雲計算平臺之上,如開源的HDFS文件系統和MapReduce運算框架。Hadoop機群包含數百臺乃至數千臺服務器,存儲了數PB乃至數+PB的數據,每天運行著成千上萬的離線數據分析作業,每個作業處理幾百MB到幾百TB甚至更多的數據,運行時間為幾分鐘、幾小時、幾天甚至更長。
以上內容參考百度百科-數據分析