這四類數據源包括:開放數據源、爬蟲爬行、傳感器和日誌收集。
開放數據源通常是特定於行業的數據庫。國內,貴州做了很多大膽的嘗試,搭建雲平臺,逐年開放旅遊、交通、商業等領域的數據量。
爬蟲抓取壹般是針對特定的網站或App。如果要抓取指定的網站數據,比如購物網站上的購物評論,就需要做特定的抓取。
第三種數據源是傳感器,基本上是收集物理信息。例如圖像、視頻或物體的速度、熱量和壓力。
最後是日誌收集,這是統計用戶的操作。我們可以在前端埋點,在後端收集統計腳本,分析網站的訪問和使用瓶頸。
如何使用開放數據源
壹個是單位的維度,比如政府、企業、高校;壹個是行業維度,比如交通、金融、能源等領域
如何使用爬行動物爬行
在Python爬蟲中,基本上有三個過程。
1.對有請求的內容進行爬網。我們可以使用請求庫來獲取web信息。請求庫可以說是Python爬蟲的利器,也就是Python的HTTP庫。通過這個庫抓取網頁中的數據非常方便,可以節省我們很多時間。
2.使用XPath解析內容。XPath是XML path的縮寫,也是XML Path語言。它是壹種用於確定XML文檔中某個部分的位置的語言,通常在開發中用作小型查詢語言。XPath可以通過元素和屬性進行索引。
3.用熊貓來保存數據。Pandas是壹種先進的數據結構,使數據分析更加容易。我們可以用熊貓來保存抓取的數據。最後,通過熊貓將其寫入XLS或MySQL等數據庫。
請求、XPath和熊貓是Python的三大利器。當然,做Python爬蟲有很多利器,比如Selenium,PhantomJS,或者使用Puppteteer的無頭模式。