都是iconv惹的禍


  今天在做采集的時候發現只取到了網頁的部分內容,當時我就郁悶了,之前都用的采集都可以采集到網頁的所有內容,但這次死活就取到部分內容。尋找原因才知道原來是iconv惹的禍。

  發現問題時,網上搜了搜,才發現iconv原來有bug ,碰到一些生僻字就會無法轉換,當然了配置第二個參數時,可以稍微彌補一下默認缺陷,不至於無法轉換是截斷,用法如下

iconv(“UTF-8″,”GB2312//IGNORE”,$data)  ;

這樣碰到生僻字轉換失敗時,它就會忽略失敗,繼續轉換下面的內容,這算解決問題的一個辦法,不過為了確保轉換的成功率,我們可以用另一個轉換函數(mb_convert_encoding),查資料網上說,這個函數效率不是很高,另外這個函數還可以省略第三個參數,自動識別內容編碼,不過最好不要用,影響效率,還需要注意的時,mb_convert_encoding和iconv參數順序不一樣,一定要注意。

附兩個函數簡單的用法:

iconv

string iconv ( string $in_charset , string $out_charset , string $str )

第一個參數:內容原的編碼

第二個參數:目標編碼

第三個參數:要轉的字符串

函數返回字符串

<?php

$instr = ‘測試’;

// GBK轉UTF-8

$outstr = iconv(‘GBK’,'UTF-8′,$instr);

?>

mb_convert_encoding

string mb_convert_encoding ( string $str , string $to_encoding [, mixed $from_encoding ] )
第一個參數:要處理的字符串
第二個參數:目標編碼
第三個參數:內容原編碼
<?php

$instr = '測試';

// GBK轉UTF-8

$outstr = mb_convert_encoding($instr,'UTF-8','GBK',);
?>

個人建議碰到轉碼問題時采用mb_convert_encoding比較保險。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM