我们在采集一个目标网站时,为了不让网站管理员发现有人在采集他的网站而封掉我们服务器的IP,这时就需要使用代理IP来间接采集目标网站。但是单一使用某一个代理IP去采集,还是很容易被网站管理员发现而封掉这个代理IP,这就需要使用随机代理IP。我们在使用火车头采集器时,目前在旗舰版以下的所有版本,官方禁止使用【随机代理IP】的功能,其实只要想点办法,就可以实现随机代理IP采集功能。下面做详细介绍:
1、打开火车采集器的一项任务:【文件保存及部分高级设置】,这里有代理IP的设置选项,我们选择“使用IE浏览器代理”
2、设置IE浏览器代理选项: 右键 IE浏览器-属性-连接-局域网设置
在“使用自动配置脚本”前打√,并在地址里输入:file://d:/ipcn.pac(这里的路径可以修改,但要注意格式,也可以用http://绝对路径的格式)
3、编辑ipcn.pac文件
在D盘新建记事本文档,打开并输入如下代码保存,最后将文件名改为:ipcn.pac
function FindProxyForURL(url,host) { return randomProxy(); } function randomProxy() { switch(Math.floor( Math.random() * 9 ))//以下9组代理IP地址根据需要可自行修改 { case 0: return "PROXY 14.18.16.66:80"; break; case 1: return "PROXY 27.24.158.151:80"; break; case 2: return "PROXY 61.174.9.96:8080"; break; case 3: return "PROXY 61.147.82.87:8000"; break; case 4: return "PROXY 14.18.17.166:80"; break; case 5: return "PROXY 61.147.107.18:808"; break; case 6: return "PROXY 59.172.208.189:8080"; break; case 7: return "PROXY 59.172.208.186:8080"; break; case 8: return "PROXY 14.18.16.67:80"; break; } }
其中有9组IP地址可以更改成你想要IP的代理地址。
这样在采集目标网站时,就会随机使用这里的代理IP访问目标网站,避免暴露了你服务器的真实IP而被禁止。原创编辑:http://www.520hd.cc 欢迎转载。