對於得到的html代碼,我們可以通過使用正則表達式得到我們想要的。
比如我們想獲取壹個網頁上包括關鍵字“java”在內的所有文本內容,可以用正則表達式逐行匹配網頁代碼。最後去掉html標簽和無關內容,只得到包含關鍵字“java”的內容。
從網頁抓取圖片的過程和抓取內容的過程基本相同,只是會多壹個抓取圖片的步驟。
妳需要匹配img標簽的正則表達式得到img標簽,然後用src屬性的正則表達式得到這個img標簽中src屬性的圖片url,然後通過緩沖輸入流對象讀取這個圖片url的圖片信息,配合fileoutputstream將讀取的圖片信息寫入本地。