1.學習Python的基礎知識,實現基本的爬行過程。
獲取數據的過程壹般按照三個流程來實現:發送請求、獲取頁面反饋、解析和存儲數據。這個過程實際上是壹個人工瀏覽過程的模擬。
Python中有很多與爬蟲相關的包:urllib、requests、bs4、scrapy、pyspider等。我們可以連接網站,根據請求返回網頁,用Xpath解析網頁,方便提取數據。
2.了解非結構化數據的存儲
爬蟲爬取的數據結構比較復雜,傳統的結構化數據庫不壹定特別適合我們使用。前期推薦MongoDB。
3.掌握壹些常見的反爬蟲技能。
利用代理IP池、抓包和驗證碼OCR處理可以解決大部分網站的反爬蟲策略。
4.了解分布式存儲
分布式這個東西,聽起來很可怕,但其實就是利用多線程的原理,讓多個爬蟲同時工作,妳需要掌握三個工具:Scrapy+MongoDB+Redis。