PHP中文亂碼原因及解決辦法分析



title: PHP中文亂碼原因及解決辦法分析
date: 2018-05-12
categories:

  • PHP學習筆記
    tags:
  • php

PHP網頁的編碼

1.如果欲使用gb2312編碼,那么php要輸出頭:header("Content-type:text/html;charset=gb2312");,靜態頁面添加,所有文件的編碼格式為ANSI,可用記事本打開,另存為選擇編碼為 ANSI,覆蓋源文件。

2.如果欲使用utf-8編碼,那么php要輸出頭:header("Content-type:text/html;charset=utf-8");,靜態頁面添加,所有文件的編碼格式為utf-8。保存為utf-8可能會有點麻煩,一般utf-8文件開頭會有BOM,如果使用session就會出問題,可用editplus來保存,在editplus中,工具->參數選擇->文件->UTF-8簽名,選擇總是刪除,再保存就可以去掉BOM信息了。

3.php本身不是 Unicode 的,所有substr之類的函數得改成mb_substr(需要裝 mbstring 擴展);或者用 iconv 轉碼。

PHP與Mysql的數據交互

PHP與數據庫的編碼應一致

1.修改mysql配置文件my.inimy.cnf,mysql 最好用 utf-8 編碼

[mysql]  
default-character-set=utf8 
[mysqld]  
default-character-set=utf8 
default-storage-engine=MyISAM 
在[mysqld]下加入:  
default-collation=utf8_bin 
init_connect='SET NAMES utf8' 

2.在需要做數據庫操作的php程序前加mysql_query("set names '編碼'");,編碼和php編碼一致,如果 php編碼是 gb2312 那 mysql 編碼就是 gb2312,如果是utf-8那 mysql 編碼就是 utf8,這樣插入或檢索數據時就不會出現PHP中文亂碼了。

關於編碼

1、字符集:

在計算機底層中數據存儲的都是二進制數據,要想獲取真正有意義的字符,就必須讓二進制數據與每一個字符對應起來,這種對應關系就形成了一張編碼表。

常用字符集:

  • ISO-8859-1 拉丁碼表 latin,表示西歐語言,使用一個字節即8位表示數據。

  • GB2312 簡體中文碼表。包含6000-7000中文和符號。用兩個字節表示。兩個字節都是開頭為1,都為負數。

  • GBK 目前最常用的中文碼表,2萬的中文和符號。用兩個字節表示數據。

  • Unicode 國際標准碼,無論是什么文字,都用兩個字節存儲。

  • UTF-8 基於Unicode,一個字節就可以存儲數據,不用兩個字節存儲,而且這個碼表更加的標准化,在每一個字節頭加入了編碼信息。

(Linux 默認使用的 ISO-8859-1,win32默認使用的GB2312)

2、編碼和解碼

編碼: 將字符轉換成在字符集中對應的編碼

解碼: 在字符集中查找出編碼對應的字符

中文在網絡中的傳輸過程

1、以Java為例,eclipse默認使用 UTF-8 編碼集,Tomcat 服務器默認使用 ISO-8859-1編碼集,瀏覽器一般默認使用 GBK 編碼集。

 程序與服務器之間以字符傳輸,服務器與瀏覽器之間以字節傳輸。

2、中文傳輸過程:

瀏覽器中的中文字符----->進行編碼----->服務器----->進行解碼----->程序;

程序中的中文字符----->服務器----->進行解碼----->瀏覽器----->編碼進行顯示

3、亂碼產生原因以解決方式:

(1)、瀏覽器中的中文字符以 GBK 進行編碼,以字節流傳輸到服務器,服務器再以 ISO-8859-1進行解碼,以字符的形式傳輸給程序。

因為 ISO-8859-1 編碼集不支持中文字符,所有解碼后的字符都是西歐字符,把這些字符傳輸給程序就產生了亂碼;

針對這個原因,只要把服務器的編碼集設置為 UTF-8 即可:

request.setCharacterEncoding("UTF-8");

但這種方法只能用於POST請求方式,因為設置只會作用於請求體中的內容,如果是GET請求方式,可用先解碼再編碼的方式:

byte[] buffer = request.getParameter("word").getBytes("ISO-8859-1");  //進行編碼

String newStr = new String(buffer,"UTF-8");  //進行解碼

(2)、程序中的中文字符原樣傳輸到服務器,服務器要先對中文字符進行編碼再傳輸給瀏覽器,但因為 ISO-8859-1 編碼集不支持中文字符,所以在字符集中查找不到對應的編碼,編碼后就變成了問號,傳輸給了瀏覽器並顯示;

針對這種情況,要進行兩次設置:

response.setCharacterEncoding("UTF-8");		//將服務器編碼集設置為UTF-8
response.setContentType("text/html;charset=UTF-8");		 //將瀏覽器編碼集設置為UTF-8

實際上第二行設置已經包含了對服務器的設置,所以通常只要寫第二句代碼即可。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM