我們在采集一個目標網站時,為了不讓網站管理員發現有人在采集他的網站而封掉我們服務器的IP,這時就需要使用代理IP來間接采集目標網站。但是單一使用某一個代理IP去采集,還是很容易被網站管理員發現而封掉這個代理IP,這就需要使用隨機代理IP。我們在使用火車頭采集器時,目前在旗艦版以下的所有版本,官方禁止使用【隨機代理IP】的功能,其實只要想點辦法,就可以實現隨機代理IP采集功能。下面做詳細介紹:
1、打開火車采集器的一項任務:【文件保存及部分高級設置】,這里有代理IP的設置選項,我們選擇“使用IE瀏覽器代理”

2、設置IE瀏覽器代理選項: 右鍵 IE瀏覽器-屬性-連接-局域網設置


在“使用自動配置腳本”前打√,並在地址里輸入:file://d:/ipcn.pac(這里的路徑可以修改,但要注意格式,也可以用http://絕對路徑的格式)
3、編輯ipcn.pac文件
在D盤新建記事本文檔,打開並輸入如下代碼保存,最后將文件名改為:ipcn.pac
function FindProxyForURL(url,host)
{
return randomProxy();
}
function randomProxy()
{
switch(Math.floor( Math.random() * 9 ))//以下9組代理IP地址根據需要可自行修改
{
case 0:
return "PROXY 14.18.16.66:80";
break;
case 1:
return "PROXY 27.24.158.151:80";
break;
case 2:
return "PROXY 61.174.9.96:8080";
break;
case 3:
return "PROXY 61.147.82.87:8000";
break;
case 4:
return "PROXY 14.18.17.166:80";
break;
case 5:
return "PROXY 61.147.107.18:808";
break;
case 6:
return "PROXY 59.172.208.189:8080";
break;
case 7:
return "PROXY 59.172.208.186:8080";
break;
case 8:
return "PROXY 14.18.16.67:80";
break;
}
}
其中有9組IP地址可以更改成你想要IP的代理地址。
這樣在采集目標網站時,就會隨機使用這里的代理IP訪問目標網站,避免暴露了你服務器的真實IP而被禁止。原創編輯:http://www.520hd.cc 歡迎轉載。
