解决php无法通过file_get_contents或curl采集页面内容

本文转载自查看原文 2016-11-21 12:08 9702 PHP+MySql

工作中要采集一些网页的数据，在php中常用到的采集函数就是file_get_contents和curl函数。php在用file_get_contents函数采集网站时，有时明明用浏览器可以看，但就是采不到任何内容。

这样的问题我就遇到了，我要采集的这个页面却怎么也获取不到数据，经过测试获取百度、新浪、网易等页面内容都是正常。这个问题让我百思不得其解，于是找了个朋友来试试，他通过file_get_contents和curl函数获取都是正常的。我就郁闷了，后来才知道他用的是nginx的web服务器，我的是apache服务器。

通过不断的测试和查找资料，发现原来是php的User Agent的问题。这很有可能是服务器上做了设置，通过php $_SERVER["HTTP_USER_AGENT"]获取 User_agent判断是否为正常的浏览器请求 ,因为默认php的file_get_contents函数是不发送ua的。

我们就来认识下什么是User Agent，User Agent中文名为用户代理，简称 UA，它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。

我通过测试，在要抓取的页面输出变量$_SERVER["HTTP_USER_AGENT"]为空。这样在被抓取的服务器通过php来获取$_SERVER["HTTP_USER_AGENT"]的值，如果为空的话，就跳转到404错误页面，这样就无法抓取到页面信息。

说下上面朋友nginx服务器可以采集的原因，估计是nginx在编译的时候，开启了UA代理。这个大家可以测试下。

解决这个问题有2种方法

1、设置php.ini配置文件，找到user_agent这个开启，把前面的分号去掉；

2、通过php的ini_set()方法设置用户代理。

实例如下

ini_set(‘user_agent’,'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322)’);
echo file_get_contents(‘你想要采集的页面url’);

通过上面2种方法就可以让$_SERVER["HTTP_USER_AGENT"]的值不为空，就可以顺利的采集到你想要的内容。

注意：在设置user_agent的时候，最好使用浏览器的版本或者蜘蛛，像我上面设置的是火狐的，这样被采集的服务器就会正常的通过认证。因为服务器不会屏蔽蜘蛛或者浏览器的版本的，这个问题你应该清楚吧，哈哈。如果他要是把这个也屏蔽了的话，那就是不让蜘蛛抓取页面，也无法识别用户使用的浏览器里。

出处：http://blog.sina.com.cn/s/blog_5d6c3a1f0101nmii.html //设置http 头部个息header就不行了吗？

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 PHP file_get_contents和curl区别 php file_get_contents与curl性能比较 php中file_get_contents与curl的区别 PHP下通过file_get_contents\curl的方法实现获取远程网页内容(别忘了还有PhpRPC) file_get_contents("php://input")的用法 PHP file_get_contents函数详解 file_get_contents("php://input")的用法 php使用file_get_contents 或者curl 发送get/post 请求的方法总结 php函数file_get_contents（一） file_get_contents("php://input")用法