關於客戶端和服務器端的亂碼問題, POSTGRESQL字符集問題總結 總結的很詳細, 特別棒.
這里讓我頭痛了很久的問題在於 終端
上字符編碼的問題, 由於我的mbp上的 iterm2 的默認編碼為 utf-8, 字符顯示亂碼實際上是由於 iterm2 不能好好顯示 GBK 的編碼導致的. 平時終端中可以顯示中文, 不清楚為何 postgresql shell 中就不行了, 這導致一直沒有想到是終端的問題.
關於中文可以正常顯示, 我的配置如下
1. 安裝 PostgreSQL 的 locale 選擇的是 zh_CN.UTF-8
2. 客戶端默認編碼為 utf-8, 改為 gbk (\encoding 常看當前客戶端編碼字符集), 有兩種方式可以選擇:
* set client_encoding to 'gbk'
* \encoding 'gbk'
3. 終端 iterm2 字符編碼設置為 'gbk'
引用引文的一個例子
假設服務端編碼為UTF-8,客戶端工具psgl默認為GBK,
在此環境下插入“漢字”,一切正常。此時傳到客戶的“漢字”為GBK編碼,自動轉為UTF-8編碼存到服務端;而查詢時,又自動將服務端的UTF-8編碼轉為GBK來顯示,所以沒有出現亂碼。
將客戶端編碼設置為UTF-8,則剛才插入的“漢字”不能正常顯示。因為此時客戶端和服務端的編碼一樣,在取數據時不進行任何轉換,直接將存在服務端的UTF8編碼的字節傳到客戶端,之后psgl直接顯示,所以就亂碼了。
此環境下插入“漢字”,則添加不成功,因為“漢字”直接以GBK的形式傳到服務端,UTF8編碼不認識,所以就報錯。(現在客戶端編碼為UTF8,所以提示的中文信息也亂碼了)。
總結:
1、在此示例中,應用程序psgl,對所輸入和獲取的字符沒做任何處理,直接顯示,其使用了pg客戶端一樣的編碼方式(GBK)。
2、在使用時盡量保證客戶端編碼和操作系統環境一致,不然顯示和添加就會出現亂碼情況。