最近使用Jsoup來抓取網頁,並對網頁進行解析,發現很好用。在抓取過程中遇到一個問題,有些頁面總是報Timeout異常,開始想是不是被抓取網站對IP進行了限制,后來發現用HttpClient可以獲取到內容。
原來我最開始使用Jsoup.connect(url).get();方法獲取網頁內容,這種方式使用的是默認超時時間3秒。
原來Jsoup是可以設置超時的,修改成如下就可以了:
Jsoup.connect(url).timeout(30000).get(); // 30S
最近使用Jsoup來抓取網頁,並對網頁進行解析,發現很好用。在抓取過程中遇到一個問題,有些頁面總是報Timeout異常,開始想是不是被抓取網站對IP進行了限制,后來發現用HttpClient可以獲取到內容。
原來我最開始使用Jsoup.connect(url).get();方法獲取網頁內容,這種方式使用的是默認超時時間3秒。
原來Jsoup是可以設置超時的,修改成如下就可以了:
Jsoup.connect(url).timeout(30000).get(); // 30S
本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。