ETL是指獲取原始大數據流,然後對其進行解析,並產生可用輸出數據集的過程。
從數據源中提取(E)數據,然後經過各種聚合、函數、組合等轉換(T),使其變為可用數據。最終,數據會被加載(L)到對它進行具體分析的環境中,這就是ETL流程。
全寫是?Extract-Transform-Load。
1、E:Extract數據抽取
2、T:Transform轉換
3、L:Load裝載
擴展資料:
作用
ETL是構建數據倉庫的重要壹環,用戶從數據源抽取出所需的數據,經過數據清洗,最終按照預先定義好的數據倉庫模型,將數據加載到數據倉庫中去。
以電信為例,A系統按照統計代碼管理數據,B系統按照賬目數字管理,C系統按照語音ID管理,當ETL需要對這三個系統進行集成以獲得對客戶的全面視角時,這壹過程需要復雜的匹配規則、名稱/地址正常化與標準化,而ETL在處理過程中會定義壹個關鍵數據標準,並在此基礎上,制定相應的數據接口標準。
百度百科-ETL