國內的大數據公司還是做前端可視化展現的偏多,BAT算是真正做了大數據的,行業有硬性需求,別的行業跟不上也沒辦法,需求決定市場。
說說更通用的數據分析吧。
大數據分析也屬於數據分析的壹塊,在實際應用中可以把數據分析工具分成兩個維度:
第壹維度:數據存儲層——數據報表層——數據分析層——數據展現層
第二維度:用戶級——部門級——企業級——BI級
1、數據存儲層
數據存儲設計到數據庫的概念和數據庫語言,這方面不壹定要深鉆研,但至少要理解數據的存儲方式,數據的基本結構和數據類型。SQL查詢語言必不可少,精通最好。可從常用的selece查詢,update修改,delete刪除,insert插入的基本結構和讀取入手。
Aess2003、Aess07等,這是最基本的個人數據庫,經常用於個人或部分基本的數據存儲;MySQL數據庫,這個對於部門級或者互聯網的數據庫應用是必要的,這個時候關鍵掌握數據庫的庫結構和SQL語言的數據查詢能力。
SQLServer2005或更高版本,對中小企業,壹些大型企業也可以采用SQLServer數據庫,其實這個時候本身除了數據存儲,也包括了數據報表和數據分析了,甚至數據挖掘工具都在其中了。
DB2,Oracle數據庫都是大型數據庫了,主要是企業級,特別是大型企業或者對數據海量存儲需求的就是必須的了,壹般大型數據庫公司都提供非常好的數據整合應用平臺。
BI級別,實際上這個不是數據庫,而是建立在前面數據庫基礎上的,企業級應用的數據倉庫。DataWarehouse,建立在DW機上的數據存儲基本上都是商業智能平臺,整合了各種數據分析,報表、分析和展現!BI級別的數據倉庫結合BI產品也是近幾年的大趨勢。
2、報表層
企業存儲了數據需要讀取,需要展現,報表工具是最普遍應用的工具,尤其是在國內。傳統報表解決的是展現問題,目前國內的帆軟報表FineReport已經算在業內做到頂尖,是帶著數據分析思想的報表,因其優異的接口開放功能、填報、表單功能,能夠做到打通數據的進出,涵蓋了早期商業智能的功能。
Tableau、FineBI之類,可分在報表層也可分為數據展現層。FineBI和Tableau同屬於近年來非常棒的軟件,可作為可視化數據分析軟件,我常用FineBI從數據庫中取數進行報表和可視化分析。相對而言,可視化Tableau更優,但FineBI又有另壹種身份——商業智能,所以在大數據處理方面的能力更勝壹籌。
3、數據分析層
這個層其實有很多分析工具,當然我們最常用的就是Excel,我經常用的就是統計分析和數據挖掘工具;
Excel軟件,首先版本越高越好用這是肯定的;當然對excel來講很多人只是掌握了5%Excel功能,Excel功能非常強大,甚至可以完成所有的統計分析工作!但是我也常說,有能力把Excel玩成統計工具不如專門學會統計軟件;
SPSS軟件:當前版本是18,名字也改成了PASWStatistics;我從3.0開始Dos環境下編程分析,到現在版本的變遷也可以看出SPSS社會科學統計軟件包的變化,從重視醫學、化學等開始越來越重視商業分析,現在已經成為了預測分析軟件;
SAS軟件:SAS相對SPSS其實功能更強大,SAS是平臺化的,EM挖掘模塊平臺整合,相對來講,SAS比較難學些,但如果掌握了SAS會更有價值,比如離散選擇模型,抽樣問題,正交實驗設計等還是SAS比較好用,另外,SAS的學習材料比較多,也公開,會有收獲的!
JMP分析:SAS的壹個分析分支
XLstat:Excel的插件,可以完成大部分SPSS統計分析功能
4、表現層
表現層也叫數據可視化,以上每種工具都幾乎提供了壹點展現功能。FineBI和Tableau的可視化功能上文有提過。其實,近年來Excel的可視化越來越棒,配上壹些插件,使用感更佳。
PPT:辦公常用,用來寫數據分析報告;
Xmind&百度腦圖:梳理流程,幫助思考分析,展現數據分析的層次;
Xcelsius軟件:Dashboard制作和數據可視化報表工具,可以直接讀取數據庫,在Excel裏建模,互聯網展現,最大特色還是可以在PPT中實現動態報表