Oracle定義字符串類型VARCHAR2和CHAR指定長度的用法如下:
varchar2(<SIZE> <BYTE|CHAR>) <SIZE>是介於1~4000之間的一個數,表示最多占用4000字節的存儲空間。
char(<SIZE> <BYTE|CHAR>) <SIZE>是介於1~2000之間的一個數,表示最多占用2000字節的存儲空間。
那其中的BYTE和CHAR有什么區別呢
BYTE,用字節指定:VARCHAR2(10 BYTE)。這能支持最多10字節的數據,在一個多字節字符集中,這可能只是兩個字符。采用多字節字符集時,字節與字符並不相同。
CHAR,用字符指定:VARCHAR2(10 CHAR)。這將支持最多10字符數據,可能是多達40字節的信息。另外,VARCHAR2(4000 CHAR)理論上支持最多4000個字符的數據,不過由於Oracle中字符串數據類型限制為4000字節,所以可能無法得到全部4000個字符。
使用UTF8之類的多字節字符集時,建議你在VARCHAR2/CHAR定義中使用CHAR修飾會,也就是說,使用VARCHAR2(30 CHAR),而不是VARCHAR2(30),因為你的本意很可能是定義一個實際上能存儲30字符數據的列。還可以使用會話參數或系統參數NLS_LENGTH_SEMANTICS來修改默認行為,即把默認設置BYTE改為CHAR。不建議在系統級修改這個設置,而應該使用ALTER SESSION修改會話級。還有重要的一點,VARCHAR2中存儲的字節數上界是4000。不過,即使你指定了VARCHAR(4000 CHAR),可能並不能在這個字段中放下4000個字符實際上,采用你選擇的字符集時,如果所有字符都要用4個字節來表示,那么這個字段中就只能放下1000個字符!
下面使用一個小例子展示BYTE和CHAR之間的區別,並顯示出上界的作用。
測試環境11.2.0.4,是在多字節字符集數據庫上完成的,在此使用了字符集AL32UTF8,這個字符集支持最新版本的Unicode標准,采用一種變長方式對每個字符使用1~4個字節進行編碼
linuxidc@ORCL>col value for a30
linuxidc@ORCL>col parameter for a30
linuxidc@ORCL>select * from nls_database_parameters where parameter='NLS_CHARACTERSET';
PARAMETER VALUE
------------------------------ ------------------------------
NLS_CHARACTERSET AL32UTF8
linuxidc@ORCL>show parameter nls_leng
NAME TYPE VALUE
------------------------------------ --------------------------------- ------------------------------
nls_length_semantics string BYTE
創建測試表
linuxidc@ORCL>create table t (a varchar2(1),b varchar2(1 char),c varchar2(4000 char));
Table created.
現在,這個表中插入一個UTF字符unistr('\00d6'),這個字符長度為2個字節,可以觀察到以下結果:
linuxidc@ORCL>select length(unistr('\00d6')),lengthb(unistr('\00d6')) from dual;
LENGTH(UNISTR('\00D6')) LENGTHB(UNISTR('\00D6'))
----------------------- ------------------------
1 2
linuxidc@ORCL>insert into t (a) values (unistr('\00d6'));
insert into t (a) values (unistr('\00d6'))
*
ERROR at line 1:
ORA-12899: value too large for column "ZX"."T"."A" (actual: 2, maximum: 1)
這說明:VARCHAR(1)的單位是字節而不是字符。這里確實只有一個Unicode字符,但是它在一個字節中放不下;將應用從單字節定寬字符集移植到一個多字節字符集時,可能會發現原來在字段中能放下的文本現在卻無法放下。第二點的原因是:在一個單字節字符集中,包含20個字符的字符串長度就是20字節,完全可以在VARCHAR2(20)中放下。不過在一個多字節字符集中,20個字符的長度可以達到80字節(如果每個字符用4個字節表示),這樣一傑,20個Unicode字符很可能無法在20個字節中放下。你可能會考慮將DDL修改為VARCHAR2(20 CHAR),或在運行DDL創建表時使用前面提到的NLS_LENGTH_SEMENTICS會話參數。
插入包含一個字符的字段時觀察到以下結果:
linuxidc@ORCL>insert into t (b) values (unistr('\00d6'));
1 row created.
linuxidc@ORCL>col dump for a30
linuxidc@ORCL>select length(b),lengthb(b),dump(b) dump from t;
LENGTH(B) LENGTHB(B) DUMP
---------- ---------- ------------------------------
1 2 Typ=1 Len=2: 195,150
這個INSERT成功了,而且可以看到,所有插入數據的長度(LENGTH)就是一個字符,所有字符串函數都以字符為單位工作。LENGTHB函數(字節長度)顯示出這個字段占用了2字節的存儲空間,另外DUMP函數顯示了這些字節到底是什么。這個例子展示了VARCHAR2(N)並不一定存儲N個字符,而只是存儲N個字節。
下面測試VARCHAR2(4000)可能存儲不了4000個字符
linuxidc@ORCL>declare
2 l_date varchar2(4000 char);
3 l_ch varchar2(1 char) := unistr('\00d6');
4 begin
5 l_date:=rpad(l_ch,4000,l_ch);
6 insert into t(c) values(l_date);
7 end;
8 /
declare
*
ERROR at line 1:
ORA-01461: can bind a LONG value only for insert into a LONG column
ORA-06512: at line 6
在此顯示出,一個4000字符的實際上長度為8000字節,這樣一個字符串無法永久地存儲在一個VARCHAR(4000 char)字段中,這個字符串能放在PL/SQL變量中,因為在PL/SQL中VARCHAR2最大可以達到32K。不過,存儲在表中,VARCHAR2則被硬性限制為最多只能存放4000字節。我們可以成功地存儲其中2000個字符:
linuxidc@ORCL>declare
2 l_date varchar2(4000 char);
3 l_ch varchar2(1 char) := unistr('\00d6');
4 begin
5 l_date:=rpad(l_ch,2000,l_ch);
6 insert into t(c) values(l_date);
7 end;
8 /
PL/SQL procedure successfully completed.
linuxidc@ORCL>
zx@ORCL>select length(c),lengthb(c) from t where c is not null;
LENGTH(C) LENGTHB(C)
---------- ----------
2000 4000