古詩詞大全網 - 成語大全 - 如何用xpath直接爬取網頁

如何用xpath直接爬取網頁

1. 利用Selenium IDE

我們可以通過firefox添加插件Selenium IDE並開啟。當點擊紅色的錄制按鈕後,我們對網頁進行操作後,該工具會錄制所有的行為並轉化為selenium命令,當然也就包含有了locator。

方法優點:簡單、方便

方法不足:對於壹些復雜點的行為可能會漏掉,因此也就無法捕獲相應的locator;此外locator是自動獲取的,可能不是很直觀,另外無法得到統壹樣式的locator。

2. 利用Firebug

同樣firefox的插件中可以添加firebug。在Tools->Web Developer->Firebug中打開Firebug,於是能夠看到頁面的下半部分有顯示Firebug窗口,可以查看HTML,CSS等。因為了解的粗淺,所以只能說說知道的幾點簡單功能。

如果我們需要查看頁面某個元素的locator,可以鼠標右擊,選擇Inspect Element with Firebug, 於是就到了元素對應的html源碼位置。這樣我們根據這部分源碼來寫locator。

但是,往往對於壹些element如button等,右擊後沒有反應時,我們可以考慮選擇它們旁邊的元素進行,到源碼後再通過查找其兄弟元素源碼或者上壹層來找到相應源碼。這裏主要根據是當我們鼠標放在以某tag為根節點的源碼的上時,上面的頁面對應的界面元素會有相應標記。

方法缺點:寫出的locator可能並不是頁面的唯壹,這樣selenium運行就難以識別