php 空格無法替換，utf-8空格惹的禍

本文轉載自查看原文 2014-11-28 11:39 3077 替換 str_replace/ PHP

一次坑爹的小bug。讀取一段文字(編碼utf-8)，想替換掉空格，str_replace(" "..)、preg_replace("/\s/"..)都不起作用。

<?php

// 替換<p>后4個空格
$str = file_get_contents("http://m.ts.cn/new/99cms_ts/api.php?s=/News/getNewsInfoTmp/Nid/51089");
$str = str_replace(" ", "-", $str);
$str = preg_replace("/\s/", "-", $str);
echo $str;  // 不起作用

　　沒辦法，將替換不了的空格ord()下才看到，這個utf-8空格比較特殊。ASCII 194 + 160出來的。

<?php

// 替換<p>后4個空格
$str = file_get_contents("http://m.ts.cn/new/99cms_ts/api.php?s=/News/getNewsInfoTmp/Nid/51089");
$str = str_replace(chr(194) . chr(160), "-", $str);  // 解決方法
echo $str;  // OK

　　實驗下這個空格。

<?php

// utf-8無bom文件下，四個空格
$s1 = chr(194) . chr(160);
$s2 = chr(32);
$s3 = " ";
$s4 = "　";  // 全角空格
$s = $s1 . $s2 . $s3 . $s4;

// 判斷
$r  = '';
if ($s1 == $s2) $r .= 1;
if ($s1 == $s3) $r .= 2;
if ($s1 == $s4) $r .= 3;
if ($s2 == $s3) $r .= 4;
if ($s2 == $s4) $r .= 5;
if ($s3 == $s4) $r .= 6;

// 結果
echo $s, "#####", $r, "####", str_replace(" ", "-", $s), "####", preg_replace("/\s/", "-", $s);

　　結果：為方便書寫，|代表空格，|代表全角空格。

　　||||####4####|--|####|--|

　　改下瀏覽器編碼為gbk，結果：聽銆€#####4####聽--銆€####聽--銆€

　　問題的根源，在於UTF-8這種編碼里面，存在一個特殊的字符，其編碼是“0xC2 0xA0”(194 160)，轉換成字符的時候，表現為一個空格，跟一般的半角空格（ASCII 0x20）一樣，唯一的不同是它的寬度不會被壓縮，因此比較多的被用於網頁排版（如首行縮進之類）。而其他的編碼方式如GB2312、Unicode之類並沒有這樣的字符。

　　總結下來就是：替換不了的字符，打印出ASCII碼來總能替換掉吧。

參考：解決采集UTF-8網頁空格變成問號亂碼詭異的UTF8空格

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 修改域名惹的禍都是假期惹的禍，該如何安慰自己？ UTF-8編碼的空格（194 160）問題 mongodb的連接問題，綁定IP惹的禍 php轉換字符編碼為utf-8 PHP亂碼問題，UTF-8（亂碼）【FAQ】我在VNC上栽的坑（都是全角冒號惹的禍） PHP的UTF-8中文轉拼音處理類 php utf-8字符轉ascii字符 php header utf8 插入header("Content-type: text/html; charset=utf-8");