java爬蟲爬取的html內容中空格( )變為問號“?”的解決方法


  用java編寫的爬蟲,使用xpath爬取內容后,發現網頁源碼中的 全部顯示為?(問號),但是使用字符串的replace("?", ""),並不能替換,網上找了一下,大概意思是顯示的這個問號其實並不是問號,是亂碼,主要是由於編碼的問題導致的。

 

解決方法如下:

 

//替換抓取內容中“ ”變為問號的問題
try {
        intro = new String(intro.getBytes(),"GBK").replace('?', ' ').replace(' ', ' ');
} catch (Exception e){
        e.printStackTrace();
}

其中replace(' ', ' ')中,前面哪一個空格是全角空格。

 

參考鏈接:

http://bbs.csdn.net/topics/360072952

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM