hive是基於Hadoop的壹個數據倉庫工具,用來進行數據提取、轉化、加載,這是壹種可以存儲、查詢和分析存儲在Hadoop中的大規模數據的機制。
hive數據倉庫工具能將結構化的數據文件映射為壹張數據庫表,並提供SQL查詢功能,能將SQL語句轉變成MapReduce任務來執行。Hive的優點是學習成本低,可以通過類似SQL語句實現快速MapReduce統計,使MapReduce變得更加簡單,而不必開發專門的MapReduce應用程序。hive十分適合對數據倉庫進行統計分析。
簡介
hive是基於Hadoop構建的壹套數據倉庫分析系統,它提供了豐富的SQL查詢方式來分析存儲在Hadoop分布式文件系統中的數據:可以將結構化的數據文件映射為壹張數據庫表,並提供完整的SQL查詢功能;可以將SQL語句轉換為MapReduce任務運行,通過自己的SQL查詢分析需要的內容。
這套SQL簡稱Hive SQL,使不熟悉mapreduce的用戶可以很方便地利用SQL語言查詢、匯總和分析數據。而mapreduce開發人員可以把自己寫的mapper和reducer作為插件來支持hive做更復雜的數據分析。它與關系型數據庫的SQL略有不同,但支持了絕大多數的語句如DDL、DML以及常見的聚合函數、連接查詢、條件查詢。
它還提供了壹系列的工具進行數據提取轉化加載,用來存儲、查詢和分析存儲在Hadoop中的大規模數據集,並支持UDF(User-Defined Function)、UDAF(User-Defined AggregateFunction)和UDTF(User-Defined Table-Generating Function),也可以實現對map和reduce函數的定制,為數據操作提供了良好的伸縮性和可擴展性。