分布式計算,非結構化數據庫,分類、聚類等算法。
大數據包括結構化、半結構化和非結構化數據,非結構化數據越來越成為數據的主要部分。據IDC的調查報告顯示:企業中80%的數據都是非結構化數據,這些數據每年都按指數增長60%。
擴展資料:
大數據(Big data)通常用來形容壹個公司創造的大量非結構化數據和半結構化數據,這些數據在下載到關系型數據庫用於分析時會花費過多時間和金錢。
大數據分析常和雲計算聯系到壹起,因為實時的大型數據集分析需要像MapReduce壹樣的框架來向數十、數百或甚至數千的電腦分配工作。
大數據需要特殊的技術,以有效地處理大量的容忍經過時間內的數據。適用於大數據的技術,包括大規模並行處理(MPP)數據庫、數據挖掘、分布式文件系統、分布式數據庫、雲計算平臺、互聯網和可擴展的存儲系統。
百度百科-大數據