步驟1?打開網頁
登陸八爪魚7.0采集器→點擊左上角的“+”圖標→選擇自定義采集(也可以點擊主頁中自定義采集下方的“立即使用”),進入到任務配置頁面。然後輸入網址→保存網址,系統會進入到流程設計頁面並自動打開前面輸入的網址。
網頁打開後,我們可以對任務名進行修改,不修改則默認以網頁標題命名。在運行采集前可隨時修改任務名。
步驟2?提取數據
在網頁中,直接選中需要提取的數據即可,窗口右上角會有對應的提示。本教程中我們以提取新聞標題、日期、正文為例,請各位靈活運用,各取所需。
提取數據設置好,即可點擊保存並開始運行采集。但是此時的字段名為系統自動生成的。為了更加符合自己需求,可點擊右上角“流程”進入流程頁面對字段名進行修改。首先選中要修改中字段名,此時下拉框中會有備選字段名,可直接選取使用。如果沒自己想要的,就輸入新的字段名。修改好字段名後,點擊“確定”進行保存。保存後即可運行采集。
所有版本均可運行本地采集,旗艦版及以上版本可運行雲采集和設置定時雲采集,但運行雲采集前先運行本地采集進行測試。任務運行完采集後,可選Excel、CSV、HTML等格式進行導出或導入數據庫。數據導出後可點擊鏈接進入數據存放文件夾內查看數據,文件默認以任務名命名。
1.八爪魚采集原理
八爪魚網頁數據采集客戶端使用的開發語言是C#,運行在Windows系統。客戶端主程序負責任務配置及管理,任務的雲采集控制,雲集成數據的管理(導出,清理,發布)。數據導出程序負責數據的導出Excel,SQL,TXT,MYSQL等,支持壹次導出百萬級別數據。本地采集程序負責根據工作流對網頁進行打開,抓取,采集數據,通過正則表達式與Xpath原理,快速獲取網頁數據。整個采集流程基於Firefox內核瀏覽器,通過模擬人的思維操作方式(如打開網頁,點擊網頁中的某個按鈕),對網頁內容進行全自動提取。系統完全可視化流程操作,無需專業知識,輕松實現數據采集。通過對網頁源碼中各個數據XPath路徑的精確定位,八爪魚可以批量化精準采集出用戶所需數據。
2.八爪魚實現的功能
八爪魚網頁數據采集系統以完全自主研發的分布式雲計算平臺為核心,可以在很短的時間內,輕松從各種不同的網站或者網頁獲取大量的規範化數據,幫助任何需要從網頁獲取信息的客戶實現數據自動化采集、編輯、規範化,擺脫對人工搜索及收集數據的依賴,從而降低獲取信息的成本、提高效率。涉及到政府、高校、企業、銀行、電商、科研、汽車、房產、媒體等眾多行業及領域。八爪魚作為壹款通用的網頁數據采集器,其並不針對於某壹網站某壹行業的數據進行采集,而是網頁上所能看到或網頁源碼中有的文本信息幾乎都能采集,市面上98%的網頁都可以用八爪魚進行采集。
使用本地采集(單機采集),除了可以實現絕大多數網頁數據的爬取,還可以采集過程中對數據進行初步的清洗。如使用程序自帶的正則工具,利用正則表達式將數據格式化。在數據源頭即可實現去除空格、篩選日期等多種操作。其次八爪魚還有提供分支判斷功能,可對網頁中信息進行是與否的邏輯判斷,實現用戶篩選需求。
雲采集除具有本地采集(單機采集)的全部功能之外,還可以實現定時采集,實時監控,數據自動去重並入庫,增量采集,自動識別驗證碼,API接口多元化導出數據以及修改參數。同時利用雲端多節點並發運行,采集速度將遠超於本地采集(單機采集),多IP在任務啟動時自動切換還可避免網站的IP封鎖,實現采集數據的最大化。