數據收集的數據來源是什麽？

從數據收集的角度來看，有哪些數據來源？

這四類數據源包括:開放數據源、爬蟲爬行、傳感器和日誌收集。

開放數據源通常是特定於行業的數據庫。國內，貴州做了很多大膽的嘗試，搭建雲平臺，逐年開放旅遊、交通、商業等領域的數據量。

爬蟲抓取壹般是針對特定的網站或App。如果要抓取指定的網站數據，比如購物網站上的購物評論，就需要做特定的抓取。

第三種數據源是傳感器，基本上是收集物理信息。例如圖像、視頻或物體的速度、熱量和壓力。

最後是日誌收集，這是統計用戶的操作。我們可以在前端埋點，在後端收集統計腳本，分析網站的訪問和使用瓶頸。

如何使用開放數據源

壹個是單位的維度，比如政府、企業、高校；壹個是行業維度，比如交通、金融、能源等領域

如何使用爬行動物爬行

在Python爬蟲中，基本上有三個過程。

1.對有請求的內容進行爬網。我們可以使用請求庫來獲取web信息。請求庫可以說是Python爬蟲的利器，也就是Python的HTTP庫。通過這個庫抓取網頁中的數據非常方便，可以節省我們很多時間。

2.使用XPath解析內容。XPath是XML path的縮寫，也是XML Path語言。它是壹種用於確定XML文檔中某個部分的位置的語言，通常在開發中用作小型查詢語言。XPath可以通過元素和屬性進行索引。

3.用熊貓來保存數據。Pandas是壹種先進的數據結構，使數據分析更加容易。我們可以用熊貓來保存抓取的數據。最後，通過熊貓將其寫入XLS或MySQL等數據庫。

請求、XPath和熊貓是Python的三大利器。當然，做Python爬蟲有很多利器，比如Selenium，PhantomJS，或者使用Puppteteer的無頭模式。