瑞雪采集雲是壹個PaaS在線開發平臺,與圖形配置化爬蟲客戶端工具相比,瑞雪采集雲提供的是通用采集能力,能夠滿足企業客戶數據采集業務的長期需求。
主要特點如下:
(壹) 壹站式通用能力集成,指數級提高開發效率。平臺封裝了豐富的通用功能,開發者不需要關心 Ajax和Cookie等底層細節,只需要利用平臺封裝好API,把主要精力放在業務上,工作效率提供10倍。
(二) 開發自由度高,支持復雜網站的采集。支持Java/Python編寫應用插件,借助高級語言的高自由度能夠處理復雜網站的采集。平臺提供業內首個基於Web瀏覽器的在線開發環境,無需安裝任何客戶端,提高應用源代碼在客戶內部的***享。
(三) 分布式任務調度機制,並發采集效率高。把采集工作分解為多個采集工序,壹個大任務被拆解為在不同工序上執行的大量小任務,然後被分配到海量爬蟲機集群上被分布式並發執行,確保系統達到最高的采集效率。
(四) 強大的任務管理機制,確保數據完整性。平臺擁有強大的任務狀態機制,支持任務重發、支持利用結束碼管理任務的不同結束狀態,根據具體情況選擇不同的後續處理,保證不遺漏目標數據,確保最終目標數據的完整性。
(五) 學習時間短,能夠支撐業務的快速發展。平臺提供豐富的在線幫助文檔,開發者能夠在1小時內快速掌握平臺的基本使用,當有新的數據采集需求時,新的開發者能夠立即學習開發采集爬蟲程序,快速對應相關業務的發展。
(六) 支持私有化部署,保證數據安全。支持平臺所有模塊的私有化部署,讓客戶擁有瑞雪采集雲平臺的全部能力,保證客戶開發的應用插件代碼和目標數據的絕對安全。