大數據核心技術有哪些

大數據技術的體系龐大且復雜，基礎的技術包含數據的采集、數據預處理、分布式存儲、數據庫、數據倉庫、機器學習、並行計算、可視化等。

1、數據采集與預處理：FlumeNG實時日誌收集系統，支持在日誌系統中定制各類數據發送方，用於收集數據；Zookeeper是壹個分布式的，開放源碼的分布式應用程序協調服務，提供數據同步服務。

2、數據存儲：Hadoop作為壹個開源的框架，專為離線和大規模數據分析而設計，HDFS作為其核心的存儲引擎，已被廣泛用於數據存儲。HBase，是壹個分布式的、面向列的開源數據庫，可以認為是hdfs的封裝，本質是數據存儲、NoSQL數據庫。

3、數據清洗：MapReduce作為Hadoop的查詢引擎，用於大規模數據集的並行計算。

4、數據查詢分析：Hive的核心工作就是把SQL語句翻譯成MR程序，可以將結構化的數據映射為壹張數據庫表，並提供HQL(HiveSQL)查詢功能。Spark啟用了內存分布數據集，除了能夠提供交互式查詢外，它還可以優化叠代工作負載。

5、數據可視化：對接壹些BI平臺，將分析得到的數據進行可視化，用於指導決策服務。