PHP過濾非UTF8字符,測試mysql數據庫非UTF8特殊字符自動中斷補全問題


最近在做一個采集微信文章的時候發現數據總是中斷,經過百度查閱資料才發現原來是UTL-8字符編碼的原因

比如微信里面的這段文字直接復制過來插入數據庫的話你會發現,表情后面的數據就會自動中斷不會保存到數據庫,結果如下

 

 解決方法如下

方法1:將數據庫字段的數據編碼設置為

 

這樣的話處理結果就是非UTF8字符會轉換為問號,數據不會中斷,結果如下

方法2:通過方法在文本數據添加到數據庫之間過濾掉非UTF8字符、PHP方法如下

   //過濾掉非UTF-8特殊字符
     function filterUtf8($str)
    {
        /*utf8 編碼表:
        * Unicode符號范圍           | UTF-8編碼方式
        * u0000 0000 - u0000 007F   | 0xxxxxxx
        * u0000 0080 - u0000 07FF   | 110xxxxx 10xxxxxx
        * u0000 0800 - u0000 FFFF   | 1110xxxx 10xxxxxx 10xxxxxx
        *
        */
        $re = '';
        $str = str_split(bin2hex($str), 2);

        $mo =  1<<7;
        $mo2 = $mo | (1 << 6);
        $mo3 = $mo2 | (1 << 5);         //三個字節
        $mo4 = $mo3 | (1 << 4);          //四個字節
        $mo5 = $mo4 | (1 << 3);          //五個字節
        $mo6 = $mo5 | (1 << 2);          //六個字節


        for ($i = 0; $i < count($str); $i++)
        {
            if ((hexdec($str[$i]) & ($mo)) == 0)
            {
                $re .=  chr(hexdec($str[$i]));
                continue;
            }

            //4字節 及其以上舍去
            if ((hexdec($str[$i]) & ($mo6) )  == $mo6)
            {
                $i = $i +5;
                continue;
            }

            if ((hexdec($str[$i]) & ($mo5) )  == $mo5)
            {
                $i = $i +4;
                continue;
            }

            if ((hexdec($str[$i]) & ($mo4) )  == $mo4)
            {
                $i = $i +3;
                continue;
            }

            if ((hexdec($str[$i]) & ($mo3) )  == $mo3 )
            {
                $i = $i +2;
                if (((hexdec($str[$i]) & ($mo) )  == $mo) &&  ((hexdec($str[$i - 1]) & ($mo) )  == $mo)  )
                {
                    $r = chr(hexdec($str[$i - 2])).
                        chr(hexdec($str[$i - 1])).
                        chr(hexdec($str[$i]));
                    $re .= $r;
                }
                continue;
            }

            if ((hexdec($str[$i]) & ($mo2) )  == $mo2 )
            {
                $i = $i +1;
                if ((hexdec($str[$i]) & ($mo) )  == $mo)
                {
                    $re .= chr(hexdec($str[$i - 1])) . chr(hexdec($str[$i]));
                }
                continue;
            }
        }
        return $re;
    }


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM