古詩詞大全網 - 藝術簽名 - Java爬蟲抓取指定數據

Java爬蟲抓取指定數據

根據java網絡編程的相關內容,利用jdk提供的相關類可以得到url對應的網頁的html頁面代碼。

對於得到的html代碼,我們可以通過使用正則表達式得到我們想要的。

比如我們想獲取壹個網頁上包括關鍵字“java”在內的所有文本內容,可以用正則表達式逐行匹配網頁代碼。最後去掉html標簽和無關內容,只得到包含關鍵字“java”的內容。

從網頁抓取圖片的過程和抓取內容的過程基本相同,只是會多壹個抓取圖片的步驟。

妳需要匹配img標簽的正則表達式得到img標簽,然後用src屬性的正則表達式得到這個img標簽中src屬性的圖片url,然後通過緩沖輸入流對象讀取這個圖片url的圖片信息,配合fileoutputstream將讀取的圖片信息寫入本地。