薛瑞采集雲是壹個PaaS在線開發平臺。相比圖形化配置爬蟲客戶端工具,薛瑞采集雲提供通用采集能力,可以滿足企業客戶數據采集業務的長期需求。
主要特點如下:
(1)壹站式通用能力集成,成倍提升開發效率。該平臺封裝了大量的通用功能。開發者不需要關心Ajax、Cookie等底層細節。他們只需要使用平臺封裝API,專註於業務。工作效率是10次。
(2)開發自由度高,支持復雜網站的收藏。支持Java/Python編寫應用插件,能以高級語言的高自由度處理復雜網站的集合。該平臺提供了業界首個基於Web瀏覽器的在線開發環境,無需安裝任何客戶端,提高了應用源代碼在客戶中的觀賞性。
(3)高並發采集效率的分布式任務調度機制。收集工作被分成若幹個收集進程,壹個大任務被分成大量的小任務在不同的進程中執行,然後分布到大量的爬蟲集群中並發執行,以保證系統最高的收集效率。
(D)強有力的任務管理機制,確保數據的完整性。平臺擁有強大的任務狀態機制,支持任務重傳,管理帶結束碼的任務的不同結束狀態,根據具體情況選擇不同的後續流程,保證目標數據不遺漏,保證最終目標數據的完整性。
(5)學習時間短,可以支撐業務的快速發展。平臺提供了豐富的在線幫助文檔,開發者可以在1小時內快速掌握平臺的基本使用。當有新的數據采集需求時,新的開發者可以立即學習開發爬蟲程序,快速響應相關業務的發展。
(6)支持私有化部署,保證數據安全。支持平臺所有模塊的私有化部署,讓客戶擁有薛瑞采集雲平臺的所有能力,保證客戶開發的應用插件代碼和目標數據的絕對安全。