一次坑爹的小bug。讀取一段文字(編碼utf-8),想替換掉空格,str_replace(" "..)、preg_replace("/\s/"..)都不起作用。
<?php // 替換<p>后4個空格 $str = file_get_contents("http://m.ts.cn/new/99cms_ts/api.php?s=/News/getNewsInfoTmp/Nid/51089"); $str = str_replace(" ", "-", $str); $str = preg_replace("/\s/", "-", $str); echo $str; // 不起作用
沒辦法,將替換不了的空格ord()下才看到,這個utf-8空格比較特殊。ASCII 194 + 160出來的。
<?php // 替換<p>后4個空格 $str = file_get_contents("http://m.ts.cn/new/99cms_ts/api.php?s=/News/getNewsInfoTmp/Nid/51089"); $str = str_replace(chr(194) . chr(160), "-", $str); // 解決方法 echo $str; // OK
實驗下這個空格。
<?php // utf-8無bom文件下,四個空格 $s1 = chr(194) . chr(160); $s2 = chr(32); $s3 = " "; $s4 = " "; // 全角空格 $s = $s1 . $s2 . $s3 . $s4; // 判斷 $r = ''; if ($s1 == $s2) $r .= 1; if ($s1 == $s3) $r .= 2; if ($s1 == $s4) $r .= 3; if ($s2 == $s3) $r .= 4; if ($s2 == $s4) $r .= 5; if ($s3 == $s4) $r .= 6; // 結果 echo $s, "#####", $r, "####", str_replace(" ", "-", $s), "####", preg_replace("/\s/", "-", $s);
結果:為方便書寫,|代表空格,|代表全角空格。
||||####4####|--|####|--|
改下瀏覽器編碼為gbk,結果:聽 銆€#####4####聽--銆€####聽--銆€
問題的根源,在於UTF-8這種編碼里面,存在一個特殊的字符,其編碼是“0xC2 0xA0”(194 160),轉換成字符的時候,表現為一個空格,跟一般的半角空格(ASCII 0x20)一樣,唯一的不同是它的寬度不會被壓縮,因此比較多的被用於網頁排版(如首行縮進之類)。而其他的編碼方式如GB2312、Unicode之類並沒有這樣的字符。
總結下來就是:替換不了的字符,打印出ASCII碼來總能替換掉吧。