php自動獲取字符串編碼函數mb_detect_encoding(轉)


使用 mb_detect_encoding() 函數來判斷字符串是什么編碼的。

當在php中使用mb_detect_encoding函數進行編碼識別時,很多人都碰到過識別編碼有誤的問題,例如對與GB2312和UTF- 8,或者UTF-8和GBK(這里主要是對於cp936的判斷),網上說是由於字符短是,mb_detect_encoding會出現誤判。 
例如: 

 
$encode = mb_detect_encoding($keytitle, array("ASCII",'UTF-8′,"GB2312′,"GBK",'BIG5′)); 
if ($encode == “UTF-8″){ 
$keytitle = iconv("UTF-8″,"GBK",$keytitle); 
} 

這段代碼的作用是檢測字符串的編碼是否UTF-8,是的話就轉換為GBK。 
可是當 $keytitle = “%D0%BE%C6%AC”;時。檢測結果卻是UTF-8.這個bug其實不算是bug,寫程序時也不應當過於依賴mb_detect_encoding,當字符串較短時,檢測結果產生偏差的可能性很大。 
怎么解決呢,我的辦法是:

 
$encode = mb_detect_encoding($keytitle, array('ASCII','GB2312′,'GBK','UTF-8'); 

三個參數分別是:被檢測的輸入變量、編碼方式的檢測順序(一旦為真,后面自動忽略)、strict模式 
對編碼檢測的順序進行調整,將最大可能性放在前面,這樣減少被錯誤轉換的機會。 
一般要先排gb2312,當有GBK和UTF-8時,需要將常用的排列到前面。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM