HttpClient本質是模擬瀏覽器去請求網址,獲取請求response。
為了更真實的模擬瀏覽器,不被限制,需要設置一些請求header。
如果是爬蟲的話,老慮的會更多些,爬取網站在HttpClient中設置Host,Referer,User-Agent,Connection,Cookie和爬取的頻率和入口Url等
比如:
httpGet.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:50.0) Gecko/20100101 Firefox/50.0");
httpget.setHeader("Referer", "http://www.google.com");
但如果不加處理的話,比如使用HttpClient 4.3.2版本的請求網址,response中UA會獲取成Apache-HttpClient/4.3.2 (java 1.5)類似的結果,並且隨着httpclient版本的不同需略有不同