通過設置代理,解決服務器禁止抓取,報“java.io.IOException: Server returned HTTP response code: 403 for URL”錯誤的方法


java.io.IOException: Server returned HTTP response code: 403 for URL: http://

這個是什么異常呢?

當你使用java程序檢索其他網站上的內容時,如果其服務器設置了禁止抓取,或者其訪問需要權限,

如果此時你去檢索網頁那么就會有異常該異常出現.

如果是服務器需要訪問權限,比如說你要登錄才能訪問的網頁,那么你抓取不了的.

如果是服務器端禁止抓取,那么這個你可以通過設置User-Agent來欺騙服務器

connection.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");

 

什么是User Agent呢?

User Agent中文名為用戶代理,簡稱 UA,它是一個特殊字符串頭,使得服務器能夠識別客戶使用的操作系統及版本、CPU 類型、瀏覽器及版本、瀏覽器渲染引擎、瀏覽器語言、瀏覽器插件等。  

一些網站常常通過判斷 UA 來給不同的操作系統、不同的瀏覽器發送不同的頁面,因此可能造成某些頁面無法在某個瀏覽器中正常顯示,但通過偽裝 UA 可以繞過檢測。

 

轉自:http://blog.csdn.net/zhaoshl_368/article/details/6603498


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM