PHP中實現中文字串截取無亂碼的方法

本文轉載自查看原文 2016-07-10 16:00 20409 PHP

在PHP中，substr()函數截取帶有中文字符串的話，可能會出現亂碼，這是因為中西文一個字節所占有的字節數不一樣，而substr的長度參數是按照字節去算的，在GB2312編碼時，一個中文占2個字節，英文為1個字節，而在UTF-8編碼當中，一個中文可能占有2個或3個字節，英文或半角標點占1字節。

直接使用PHP函數substr截取中文字符可能會出現亂碼，主要是substr可能硬生生的將一個中文字符“鋸”成兩半。解決辦法：

1、使用mbstring擴展庫的mb_substr截取就不會出現亂碼了。

2、自己書寫截取函數，但效率不如用mbstring擴展庫來得高。

3、如果僅是為了輸出截取的串，可用如下方式實現：substr($str, 0, 30).chr(0)。

=============================

substr()函數可以分割文字，但要分割的文字如果包括中文字符往往會遇到問題，這時可以用mb_substr()/mb_strcut這個函數，mb_substr()/mb_strcut的用法與substr()相似，只是在mb_substr()/mb_strcut最后要加入多一個參數，以設定字符串的編碼，但是一般的服務器都沒打開php_mbstring.dll，需要在php.ini在把php_mbstring.dll打開。
舉個例子：
<?php
echo mb_substr('這樣一來我的字符串就不會有亂碼^_^', 0, 7, 'utf-8');
?>
輸出：這樣一來我的字
<?php
echo mb_strcut('這樣一來我的字符串就不會有亂碼^_^', 0, 7, 'utf-8');
?>
輸出：這樣一
從上面的例子可以看出，mb_substr是按字來切分字符，而mb_strcut是按字節來切分字符，但是都不會產生半個字符的現象。

=============================

PHP實現中文字串截取無亂碼的方法

【實現中文字串截取無亂碼的方法--適用於utf-8】

function substr_text($str, $start=0, $length, $charset="utf-8", $suffix="")

{

if(function_exists("mb_substr")){

return mb_substr($str, $start, $length, $charset).$suffix;

}

elseif(function_exists('iconv_substr')){

return iconv_substr($str,$start,$length,$charset).$suffix;

}

$re['utf-8'] = "/[\x01-\x7f]|[\xc2-\xdf][\x80-\xbf]|[\xe0-\xef][\x80-\xbf]{2}|[\xf0-\xff][\x80-\xbf]{3}/";

$re['gb2312'] = "/[\x01-\x7f]|[\xb0-\xf7][\xa0-\xfe]/";

$re['gbk'] = "/[\x01-\x7f]|[\x81-\xfe][\x40-\xfe]/";

$re['big5'] = "/[\x01-\x7f]|[\x81-\xfe]([\x40-\x7e]|\xa1-\xfe])/";

preg_match_all($re[$charset], $str, $match);

$slice = join("",array_slice($match[0], $start, $length));

return $slice.$suffix;

}

【本文轉自獨占神林的日志；鏈接：http://yuninglovekefan.blog.sohu.com/176021361.html】

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 php中文字符串截取亂碼問題解決 PHP使用mb_strimwidth截取中文字符串方法大全 PHP頁面顯示中文字符出現亂碼 Linux中的vim顯示中文字符方法完美解決關於php gd生成中文字符亂碼的問題 zabbix4.2升級后中文字體亂碼解決方法. ubuntu中文亂碼--添加中文字符集 ssm中返回中文字符串時出現亂碼？屏蔽雙擊選中文字的方法 php中統計中文字符串長度的兩種方法