都是iconv惹的禍

本文轉載自查看原文 2013-12-04 11:34 3069

　　今天在做采集的時候發現只取到了網頁的部分內容，當時我就郁悶了，之前都用的采集都可以采集到網頁的所有內容，但這次死活就取到部分內容。尋找原因才知道原來是iconv惹的禍。

　　發現問題時，網上搜了搜，才發現iconv原來有bug ，碰到一些生僻字就會無法轉換，當然了配置第二個參數時，可以稍微彌補一下默認缺陷，不至於無法轉換是截斷，用法如下

iconv(“UTF-8″,”GB2312//IGNORE”,$data) ;

這樣碰到生僻字轉換失敗時，它就會忽略失敗，繼續轉換下面的內容，這算解決問題的一個辦法，不過為了確保轉換的成功率，我們可以用另一個轉換函數（mb_convert_encoding），查資料網上說，這個函數效率不是很高，另外這個函數還可以省略第三個參數，自動識別內容編碼，不過最好不要用，影響效率，還需要注意的時，mb_convert_encoding和iconv參數順序不一樣，一定要注意。

附兩個函數簡單的用法：

iconv

string iconv ( string $in_charset , string $out_charset , string $str )

第一個參數：內容原的編碼

第二個參數：目標編碼

第三個參數：要轉的字符串

函數返回字符串

<?php

$instr = ‘測試’;

// GBK轉UTF-8

$outstr = iconv(‘GBK’,'UTF-8′,$instr);

mb_convert_encoding

string mb_convert_encoding ( string $str , string $to_encoding [, mixed $from_encoding ] )

第一個參數：要處理的字符串

第二個參數：目標編碼

第三個參數：內容原編碼

<?php

$instr = '測試';

// GBK轉UTF-8

$outstr = mb_convert_encoding($instr,'UTF-8','GBK',);

?>

個人建議碰到轉碼問題時采用mb_convert_encoding比較保險。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 都是假期惹的禍，該如何安慰自己？ Windows Service異常，都是偷懶惹的禍【FAQ】我在VNC上栽的坑（都是全角冒號惹的禍）修改域名惹的禍實戰c++中的vector系列--再談vector的insert()方法(都是make_move_iterator惹的禍) 數據庫錯誤日志惹的禍 mysql連接慢的問題——dns惹的禍 mongodb的連接問題，綁定IP惹的禍前端頁面卡頓、也許是DOM操作惹的禍？ php 空格無法替換，utf-8空格惹的禍