1、數據采集與預處理:FlumeNG實時日誌收集系統,支持在日誌系統中定制各類數據發送方,用於收集數據;Zookeeper是壹個分布式的,開放源碼的分布式應用程序協調服務,提供數據同步服務。
2、數據存儲:Hadoop作為壹個開源的框架,專為離線和大規模數據分析而設計,HDFS作為其核心的存儲引擎,已被廣泛用於數據存儲。HBase,是壹個分布式的、面向列的開源數據庫,可以認為是hdfs的封裝,本質是數據存儲、NoSQL數據庫。
3、數據清洗:MapReduce作為Hadoop的查詢引擎,用於大規模數據集的並行計算。
4、數據查詢分析:Hive的核心工作就是把SQL語句翻譯成MR程序,可以將結構化的數據映射為壹張數據庫表,並提供HQL(HiveSQL)查詢功能。Spark啟用了內存分布數據集,除了能夠提供交互式查詢外,它還可以優化叠代工作負載。
5、數據可視化:對接壹些BI平臺,將分析得到的數據進行可視化,用於指導決策服務。