如何用xpath直接爬取網頁

1. 利用Selenium IDE

我們可以通過firefox添加插件Selenium IDE並開啟。當點擊紅色的錄制按鈕後，我們對網頁進行操作後，該工具會錄制所有的行為並轉化為selenium命令，當然也就包含有了locator。

方法優點：簡單、方便

方法不足：對於壹些復雜點的行為可能會漏掉，因此也就無法捕獲相應的locator；此外locator是自動獲取的，可能不是很直觀，另外無法得到統壹樣式的locator。

2. 利用Firebug

同樣firefox的插件中可以添加firebug。在Tools->Web Developer->Firebug中打開Firebug，於是能夠看到頁面的下半部分有顯示Firebug窗口，可以查看HTML，CSS等。因為了解的粗淺，所以只能說說知道的幾點簡單功能。

如果我們需要查看頁面某個元素的locator，可以鼠標右擊，選擇Inspect Element with Firebug, 於是就到了元素對應的html源碼位置。這樣我們根據這部分源碼來寫locator。

但是，往往對於壹些element如button等，右擊後沒有反應時，我們可以考慮選擇它們旁邊的元素進行，到源碼後再通過查找其兄弟元素源碼或者上壹層來找到相應源碼。這裏主要根據是當我們鼠標放在以某tag為根節點的源碼的上時，上面的頁面對應的界面元素會有相應標記。

方法缺點：寫出的locator可能並不是頁面的唯壹，這樣selenium運行就難以識別