php curl函數采集網頁出現gzip壓縮、編碼不同導致的亂碼圖文解決方法

本文轉載自查看原文 2018-04-08 14:57 1189 curl

方法一：

header("content-type:text/html;charset=utf-8");
$url="http://115.47.116.10/rest/keyword

'";
$content = file_get_contents("compress.zlib://".$url);
$arr=json_decode($content,true);
print_r($arr);

二：

curl亂碼有兩個方面的原因一個是因為我們采集頁面的php頁面編碼與遠程文檔編碼不致導致的，另一種可能是頁面進入了gzip壓縮傳輸導致的，那么我們要如何解決這些問題呢？

gzip壓縮傳輸導致亂碼

今天在采集京東的時候發現返回的數據是亂碼，網上說可能和壓縮有關，看了一下京東的頭信息的確進行gzip加密，好吧，那就解壓吧

1	$return = gzdecode($return); //將return的字符進行解碼

另一種解決辦法

1	curl_setopt($ch, CURLOPT_ENCODING, 'gzip');

1	mb_convert_encoding($str, 'utf-8', 'GBK,UTF-8,ASCII');

// curl 偽造agent抓取頁面

function http_get($URL,$key='baidu') {

$agent = Flight::get('flight.spider_agent')[$key];

if( !$agent ){

return false;

}

$c = curl_init();

curl_setopt($c, CURLOPT_RETURNTRANSFER, 1);

curl_setopt($c, CURLOPT_USERAGENT, $agent);

curl_setopt($c, CURLOPT_HTTPHEADER,array('Accept-Encoding: gzip, deflate'));

curl_setopt($c, CURLOPT_ENCODING, 'gzip,deflate');//這個是解釋gzip內容.................

curl_setopt($c, CURLOPT_URL, $URL);

curl_setopt($c, CURLOPT_TIMEOUT,2);

$contents = curl_exec($c);

$contents = mb_convert_encoding($contents, 'utf-8', 'GBK,UTF-8,ASCII');

$httpCode = curl_getinfo($c,CURLINFO_HTTP_CODE);

curl_close($c);

return ['data'=>$contents,'http_code'=>$httpCode];

}

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Curl 采集亂碼 gzip 原因及解決方案 utf-8 解決下載經過GZip壓縮后的網頁亂碼問題 PHP導出CSV文件出現亂碼的解決方法關於SpringMVC中text/plain的編碼導致的亂碼問題解決方法 git bash 使用自帶 curl 命令出現亂碼解決方法 php curl簡單采集圖片生成base64編碼(並附curl函數參數說明) php curl返回false解決方法 PHP Curl Accept-Encoding: gzip亂碼問題解決 ueditor的工具欄顯示亂碼解決方法小問題.. 是你的頁面編碼與語言包js編碼不符所導致的 SQL編碼亂碼解決方法