我們在采集一個目標網站時,為了不讓網站管理員發現有人在采集他的網站而封掉我們服務器的IP,這時就需要使用代理IP來間接采集目標網站。但是單一使用某一個代理IP去采集,還是很容易被網站管理員發現而封掉這個代理IP,這就需要使用隨機代理IP。我們在使用火車頭采集器時,目前在旗艦版以下的所有版本,官方禁止使用【隨機代理IP】的功能,其實只要想點辦法,就可以實現隨機代理IP采集功能。下面做詳細介紹:
1、打開火車采集器的一項任務:【文件保存及部分高級設置】,這里有代理IP的設置選項,我們選擇“使用IE瀏覽器代理”
2、設置IE瀏覽器代理選項: 右鍵 IE瀏覽器-屬性-連接-局域網設置
在“使用自動配置腳本”前打√,並在地址里輸入:file://d:/ipcn.pac(這里的路徑可以修改,但要注意格式,也可以用http://絕對路徑的格式)
3、編輯ipcn.pac文件
在D盤新建記事本文檔,打開並輸入如下代碼保存,最后將文件名改為:ipcn.pac
function FindProxyForURL(url,host) { return randomProxy(); } function randomProxy() { switch(Math.floor( Math.random() * 9 ))//以下9組代理IP地址根據需要可自行修改 { case 0: return "PROXY 14.18.16.66:80"; break; case 1: return "PROXY 27.24.158.151:80"; break; case 2: return "PROXY 61.174.9.96:8080"; break; case 3: return "PROXY 61.147.82.87:8000"; break; case 4: return "PROXY 14.18.17.166:80"; break; case 5: return "PROXY 61.147.107.18:808"; break; case 6: return "PROXY 59.172.208.189:8080"; break; case 7: return "PROXY 59.172.208.186:8080"; break; case 8: return "PROXY 14.18.16.67:80"; break; } }
其中有9組IP地址可以更改成你想要IP的代理地址。
這樣在采集目標網站時,就會隨機使用這里的代理IP訪問目標網站,避免暴露了你服務器的真實IP而被禁止。原創編輯:http://www.520hd.cc 歡迎轉載。