一直想把自己這段時間做的東西整理下,確遲遲沒有動手,現在信息抽取工作已經做的差不多,把自己感覺很好用的兩個工具介紹給大家吧!
Firefox真是一個好東西,它許多插件。本人是很討厭插件的,每次電腦里都會安裝一大堆無用的插件,看着心里不爽。由於項目需要,要看網頁的代碼,並且找到有用信息,如果下載一個html頁面,用記事本打開看,那無異於是一場災難,幸好同事給我推薦了firebug這個看代碼的工具,后來把html文件轉化成xml,要提取信息,需要用到xpath。由於不知道xpath是否正確,這個工具就可以驗證,呵呵。說了好多廢話,開始介紹下我的使用歷程吧。
從firefox的官方網站上下載firebug和xpathchecker這兩個插件,安裝步驟安裝就可以了。
Firebug:
安裝好之后,可以在屏幕的下方看到一個小蟲的標志,是暗色的,說明該插件沒有開啟,點小蟲圖標屏幕下方會出現一欄。
在這一欄可以看到小蟲變亮了,旁邊還有查看,編輯的功能。
點查看,然后移動鼠標到你想的內容,這時發現你鼠標在的地方在下面一欄的代碼就出現了。
簡單吧,但對你要看代碼,知道代碼的具體位子可是很重要的。
在代碼處 點右鍵, 出現菜單欄, 選中復制XPath
將XPath 復制到文件就可以看到選中內容的xpath了。
它還有很多有用的功能,因為不需要,也沒有研究,呵呵。
XPath Checker:
在網上看了使用方法,開始沒看明白,后來才知道是在頁面上點鼠標右鍵,出現菜單,點擊view xpath。
將剛才的XPath復制到XPath checker中剛才的內容就顯示出來。
還可以把xml用firefox打開,然后點view xpath,在xpath checker里的xpath輸入你要查找的xpath,結果就出來了,很有用的哦!