Java中偽造referer來爬取數據

本文轉載自查看原文 2018-08-14 17:31 1840 爬蟲

很多網站的防采集的辦法,就是判斷瀏覽器來源referer和cookie以及userAgent,道高一尺魔高一丈.

最近發現維護的一個爬蟲應用，爬不到數據了，看了一下日志發現被爬網站做了防采集策略，經過定位后，發現被爬網站是針對referer做了驗證，以下是解決方法：

在Java中獲取一個網站的HTML內容可以通過HttpURLConnection來獲取.我們在HttpURLConnection中可以設置referer來偽造referer,輕松繞過這類防采集的網站：

HttpURLConnection connection = null;
URL url = new URL(urlStr);
if (useProxy) {
Proxy proxy = ProxyServerUtil.getProxy();
connection = (HttpURLConnection) url.openConnection(proxy);
} else {
connection = (HttpURLConnection) url.openConnection();
}
connection.setRequestMethod( "POST");
connection.setRequestProperty("referer", "http://xxxx.xxx.com");
connection.addRequestProperty("User-Agent", ProxyServerUtil.getUserAgent());
connection.setConnectTimeout(10000);
connection.setReadTimeout(10000);

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 JavaScript 偽造 Referer 來路方法如何將爬取的數據寫入ES中將爬取的數據保存到mysql中爬取疫情數據數據爬取去哪兒網數據爬取爬蟲案例—中基協、天眼查數據爬取爬取淘寶商品數據並保存在excel中 Python爬取數據並保存到csv文件中 Java爬蟲爬取京東