古詩詞大全網 - 個性簽名 - python爬蟲時,bs4無法讀取網頁標簽中的文字?

python爬蟲時,bs4無法讀取網頁標簽中的文字?

剛看了虎撲的帖子。帖子的瀏覽量是動態加載的。它不是壹個靜態頁面。所以常規爬蟲抓取的內容是空的。目前我知道有兩種方式可以獲得瀏覽量。壹種是用硒+鉻。模擬瀏覽器加載。這對於動態加載的頁面更有效。缺點是效率太低。虎撲的帖子不推薦(沒用)。另壹個是找到虎撲的請求鏈接,獲取瀏覽量。看截圖:

通過截圖不難發現通過圖中鏈接獲得的瀏覽量。該鏈接有兩個參數。其中tid是帖子的id,即每篇帖子後的ID。對比壹下就能找到。最後壹個參數看起來像毫秒時間戳。如下圖在線驗證。

驗證結果顯示是時間戳(其實這個參數是否可用並不重要)。壹旦理解了參數,就很容易將參數直接組合到接口中,然後調用組合的接口。是不是很簡單~ ~ ~

希望能幫到妳。有問題可以繼續問。謝謝妳