用java編寫的爬蟲,使用xpath爬取內容后,發現網頁源碼中的 全部顯示為?(問號),但是使用字符串的replace("?", ""),並不能替換,網上找了一下,大概意思是顯示的這個問號其實並不是問號,是亂碼,主要是由於編碼的問題導致的。
解決方法如下:
//替換抓取內容中“ ”變為問號的問題 try { intro = new String(intro.getBytes(),"GBK").replace('?', ' ').replace(' ', ' '); } catch (Exception e){ e.printStackTrace(); }
其中replace(' ', ' ')中,前面哪一個空格是全角空格。
參考鏈接:
http://bbs.csdn.net/topics/360072952