整個抓取使用了 xpath、正則表達式、消息中間件、多線程調度框架(參考)。xpath 是一種結構化網頁元素選擇器,支持列表和單節點數據獲取,他的好處可以支持規整網頁數據抓取。我們使用的是google插件 XPath Helper,這個玩意可以支持在網頁點擊元素生成xpath,就省去了自己去查找xpath的功夫,也便於未來做到所點即所得的功能。
寫抓圖腳本的時候常常因為xPath 而頭疼。有了xPath Helper - Chrome 瀏覽器的一個插件,就能輕松獲取HTML元素的xPath. 只要按住Ctrl + Shift+ X就會出來相應窗口,將鼠標移至想要的元素再按Shift就會出來結果了。非常棒。