如何更改Oracle字符集避免亂碼


轉一位大神的筆記。

國內最常用的Oracle字符集ZHS16GBK(GBK 16-bit Simplified Chinese)能夠支持繁體中文,並且按照2個字符長度存儲一個漢字。UTF8字符集是多字節存儲,1個漢字(簡體、繁體)有時采用3個字符長度存儲。
  Oracle支持字符集的更改,但是UTF8是Oracle中最大的字符集,也就是說UTF8是ZHS16GBK的嚴格超集。
對於子集到超集的轉換,Oracle是允許的,但是對於超集到子集的轉換是不允許的。一般對於超集到子集的轉換,建議是通過dbca刪除原來的數據庫,重新再建庫,選擇正確的字符集,然后導入備份。
  我的方案是:先備份數據,然后強制轉換字符集從UTF8到ZHS16GBK,然后導入備份數據。如果不行,才來重新建庫,設置字符集ZHS16GBK,導入備份數據。如果這還不行,就把更改字符集從ZHS16GBK到UTF8(這是安全的),再導入備份數據,恢復到原始狀況。這樣就有可能避開重新建庫的麻煩。

1. 備份數據庫中所有用戶的數據
  以oracle用戶登陸,執行以下命令
  # export NLS_LANG = “SIMPLIFIED CHINESE_CHINA.UTF8”
  保持與數據庫服務器端一致,這樣在exp導出時,就不會存在字符的轉換了,備份最原始的數據。
2. 評估UTF8轉換成ZHS16GBK的風險
  轉換之前,要使用Oracle的csscan工具對數據庫掃描,評估字符集轉換前后,數據有可能的損壞情況。如果評估情況糟糕,那就絕對要放棄了。
  先安裝屬於 CSMIG 用戶的一套表和過程。以oracle用戶登陸UNIX,
  #sqlplus “/ as sysdab”
  SQL>@$ORACLE_HOME/ rdbms/admin/csminst.sql
  SQL>exit
# $ORACLE_HOME\bin\csscan -help
  可以更清楚如何使用csscan。
# $ORACLE_HOME/bin/csscan system/sunday user=mmsc FROMCHAR=UTF8 TOCHAR=ZHS16GBK ARRAY=102400 PROCESS=3 > csscan.log
  以上命令意思是掃描用戶:mmsc中的所有數據,從字符集UTF8更改為ZHS16GBK的轉換情況。然后得到三個文件:scan.txt、scan.out、scan.err。
  查看scan.out,scan.err,可以看出mmsc用戶下的所有的數據都是可以轉換的,並且沒有出現轉換“Exceptional”的情況,因此可以更放心一點。
3. 更改數據庫的字符集為ZHS16GBK
  前面說過,通過命令“Alter Database Characeter Set XXXX”,實現從超集到子集的轉換,在Oracle是不允許的。但是該命令,提供這樣的命令方式:
  Alter Database Character Set INTERNAL_CONVERT/ INTERNAL_USE XXXX


  這是Oracle的非公開命令。“在使用這個命令時,Oracle會跳過所有子集及超集的檢查,在任意字符集之間進行強制轉換,所以,使用這個命令時你必須十分小心,你必須清楚這一操作會帶來的風險”。
以oracle用戶登陸UNIX,
  #sqlplus “/ as sysdba”
  SQL> SHUTDOWN IMMEDIATE; 
  SQL> STARTUP MOUNT; 
  SQL> ALTER SESSION SET SQL_TRACE=TRUE;
  SQL> ALTER SYSTEM ENABLE RESTRICTED SESSION; 
  SQL> ALTER SYSTEM SET JOB_QUEUE_PROCESSES=0; 
  SQL> ALTER SYSTEM SET AQ_TM_PROCESSES=0; 
  SQL> ALTER DATABASE OPEN; 
  SQL> ALTER DATABASE CHARACTER SET ZHS16GBK; 
//如果不使用“INTERNAL_USE”參數,系統會提示出錯:
//ERROR at line 1:
//ORA-12712: new character set must be a superset of old character set
  SQL> ALTER SESSION SET SQL_TRACE=FALSE;
  SQL> SHUTDOWN IMMEDIATE; 
  SQL> STARTUP;
此時,檢查一下數據庫的字符集是否更改過來
  SQL> select value$ from props$ where name=’NLS_CHARACTERSET’;
  VALUE$
  -----------------
  ZHS16GBK
緊接着檢查一下數據庫中簡體中文、繁體中文是否正常,不會出現亂碼。
  SQL>select spid,spname,spshortname from spinfovisual_hk 
…...
  非常不幸,我看到了一堆亂碼,這也證明了Oracle不支持字符集從超集到子集的更改,當時心里很緊張,很怕失敗,從而恢復到原樣。
但是根據以前的驗證,把UTF8下的備份導入到ZHS16GBK中去,是OK的,所以繼續嘗試。
4. 導入備份的用戶數據
  還是以oracle用戶登陸UNIX, 先刪除庫中的用戶mmsc:
  #sqlplus “/ as sysdba”
  SQL>drop user mmsc cascade;
  SQL>exit
再運行createuser.sql,生成mmsc用戶。
  然后使用原來的備份文件,導入到mmsc用戶中:
注意:先設置NLS_LANG要與當前數據庫的一致:ZHS16GBK。這樣,導出時用戶會話的NLS_LANG為UTF8,與原先的數據庫字符集一致;現在為ZHS16GBK,與此時的數據庫字符集一致。這樣,導入時,就會進行字符轉換。
  # export NLS_LANG = “SIMPLIFIED CHINESE_CHINA.ZHS16GBK”
  #imp mmsc/mmsc@mdspdb file=DSMPD113_user_mmsc.dmp ignore=y fromuser=mmsc touser=mmsc
  馬上查看數據庫中簡體、繁體中文,哈哈,沒有亂碼了,一切顯示正常。
  緊接着進行驗證,也證明了:1個漢字此時只占用2個字符長度。問題解決了!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM