HttpClient的userAgent和refer問題


       HttpClient本質是模擬瀏覽器去請求網址,獲取請求response。

          為了更真實的模擬瀏覽器,不被限制,需要設置一些請求header。

         如果是爬蟲的話,老慮的會更多些,爬取網站在HttpClient中設置Host,Referer,User-Agent,Connection,Cookie和爬取的頻率和入口Url等

比如:

            httpGet.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:50.0) Gecko/20100101 Firefox/50.0");
            httpget.setHeader("Referer", "http://www.google.com");

        但如果不加處理的話,比如使用HttpClient 4.3.2版本的請求網址,response中UA會獲取成Apache-HttpClient/4.3.2 (java 1.5)類似的結果,並且隨着httpclient版本的不同需略有不同


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM