jsoup使用樣式class抓取數據時空格的處理


最近在研究用android和jsoup抓取小說數據,jsoup的使用可以參照http://www.open-open.com/jsoup/;在抓縱橫中文網永生這本書的目錄內容時碰到了問題,

永生的書簡介url http://book.zongheng.com/book/48552.html中,我要抓取 <a class="button read" href="http://book.zongheng.com/showchapter/48552.html">點擊閱讀</a>這個鏈接的url 再根據這個url到索引頁,解析索引頁的章節目錄和鏈接。使用jsoup抓取class可以直接這樣調用

Document doc = Jsoup.parse("http://book.zongheng.com/book/48552.html");

doc.select(".button read");嘗試后發現class中有空格無法抓到對應鏈接。上百度搜了一圈找到http://hi.baidu.com/chen88358323/item/459090031758c691a3df4389

這個解決方案不太好。想到jsoup和jquery的selec機制很像,又查到了http://zhidao.baidu.com/question/311666643.html。這篇文章很有啟發。

最后經過測試發現帶空格的class可以寫成兩個select

 寫成 Elements indexEs = doc.select(".button").select(".read");成功抓取該書所有目錄和鏈接。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM