一、VARCHAR與CHAR字符型數據的差異
在MySQL數據庫中,用的最多的字符型數據類型就是Varchar和Char,這兩種數據類型雖然都是用來存放字符型數據,但是無論從結構還是從數據的保存方式來看,兩者相差很大。而且其具體的實現方式,還依賴與存儲引擎。我這里就以大家最常用的MYISAM存儲引擎為例,談談這兩種數據類型的差異。在后續建議中,也是針對這種存儲類型而言的。
Varchar往往用來保存可變長度的字符串。簡單的說,我們只是給其固定了一個最大值,然后系統會根據實際存儲的數據量來分配合適的存儲空間。為此相比CHAR字符數據而言,其能夠比固定長度類型占用更少的存儲空間。通常情況下,VARCHAR數據類型能夠節約磁盤空間,為此往往認為其能夠提升數據庫的性能。不過這里需要注意的是,這往往是一把雙刃劍。其在提升性能的 同時,往往也會產生一些副作用。如因為其長度是可變的,為此在數據進行更新時可能會導致一些額外的工作。如在更改前,其字符長度是10位(Varchar 規定的最長字符數假設是50位),此時系統就只給其分配10個存儲的位置(假設不考慮系統自身的開銷)。更改后,其數據量達到了20位。由於沒有超過最大 50位的限制,為此數據庫還是允許其存儲的。只是其原先的存儲位置已經無法滿足其存儲的需求。此時系統就需要進行額外的操作。如根據存儲引擎不同,有的會 采用拆分機制,而有的則會采用分頁機制。
CHAR數據類型與VARCHAR數據類型不同,其采用的是固定長度的存儲方式。簡單的說,就是系統總為其分配最大的存儲空間。當數據保存時,即使 其沒有達到最大的長度,系統也會為其分配這么多的存儲空間。顯然,這種存儲方式會造成磁盤空間的浪費。這里筆者需要提醒的一點是,當字符位數不足時,系統 並不會采用空格來填充。相反,如果在保存CHAR值的時候,如果其后面有空值,系統還會自動過濾其空格。而在進行數據比較時,系統又會將空格填充到字符串 的末尾。
顯然,VARCHAR與CHAR兩種字符型數據類型相比,最大的差異就是前者是可變長度,而后者則是固定長度。在存儲時,前者會根據實際存儲的數據 來分配最終的存儲空間。而后者則不管實際存儲數據的長度,都是根據CHAR規定的長度來分配存儲空間。這是否意味着CHAR的數據類型劣於VARCHAR 呢?其實不然。否則的話,就沒有必要存在CHAR字符類型了。雖然VARCHAR數據類型可以節省存儲空間,提高數據處理的效率。但是其可變長度帶來的一 些負面效應,有時候會抵消其帶來的優勢。為此在某些情況下,還是需要使用Char數據類型。
二、使用建議
1、根據字符的長度來判斷,是考慮其長度的是否相近來確定選擇char還是varchar,如何字段的長度基本都是一樣或者其長度總是近似的可以選用char
2、是從碎片角度進行考慮
用可變長度的字符型數據時,數據庫管理員要時不時的對碎片進行整理。如執行數據庫導出導入作業,來消除碎片。
3、即使使用Varchar數據類型,也不能夠太過於慷慨!
比如你只使用到90個字符,VARCHAR(100)與VARCHAR(200)真的相同嗎?結果是否定的。雖然他們用來存儲90個字符的數據,其存儲空間相同。但是對於內存的消耗是不同的。
1.varchar類型的變化
MySQL 數據庫的varchar類型在4.1以下的版本中的最大長度限制為255,其數據范圍可以是0~255或1~255(根據不同版本數據庫來定)。在 MySQL5.0以上的版本中,varchar數據類型的長度支持到了65535,也就是說可以存放65532個字節的數據,起始位和結束位占去了3個字 節,也就是說,在4.1或以下版本中需要使用固定的TEXT或BLOB格式存放的數據可以使用可變長的varchar來存放,這樣就能有效的減少數據庫文 件的大小。
MySQL 數據庫的varchar類型在4.1以下的版本中,nvarchar(存儲的是Unicode數據類型的字符)不管是一個字符還是一個漢字,都存為2個字節 ,一般用作中文或者其他語言輸入,這樣不容易亂碼 ;varchar: 漢字是2個字節,其他字符存為1個字節 ,varchar適合輸入英文和數字。
4.0版本以下,varchar(20),指的是20字節,如果存放UTF8漢字時,只能存6個(每個漢字3字節) ;5.0版本以上,varchar(20),指的是20字符,無論存放的是數字、字母還是UTF8漢字(每個漢字3字節),都可以存放20個,最大大小是65532字節 ;varchar(20)在Mysql4中最大也不過是20個字節,但是Mysql5根據編碼不同,存儲大小也不同,具體有以下規則:
a) 存儲限制
varchar 字段是將實際內容單獨存儲在聚簇索引之外,內容開頭用1到2個字節表示實際長度(長度超過255時需要2個字節),因此最大長度不能超過65535。
b) 編碼長度限制
字符類型若為gbk,每個字符最多占2個字節,最大長度不能超過32766;
字符類型若為utf8,每個字符最多占3個字節,最大長度不能超過21845。
若定義的時候超過上述限制,則varchar字段會被強行轉為text類型,並產生warning。
c) 行長度限制
導致實際應用中varchar長度限制的是一個行定義的長度。 MySQL要求一個行的定義長度不能超過65535。若定義的表長度超過這個值,則提示
ERROR 1118 (42000): Row size too large. The maximum row size for the used table type, not counting BLOBs, is 65535. You have to change some columns to TEXT or BLOBs。
2.CHAR(M), VARCHAR(M)不同之處
CHAR(M)定義的列的長度為固定的,M取值可以為0~255之間,當保存CHAR值時,在它們的右邊填充空格以達到指定的長度。當檢索到CHAR值時,尾部的空格被刪除掉。在存儲或檢索過程中不進行大小寫轉換。CHAR存儲定長數據很方便,CHAR字段上的索引效率級高,比如定義char(10),那么不論你存儲的數據是否達到了10個字節,都要占去10個字節的空間,不足的自動用空格填充。
VARCHAR(M)定義的列的長度為可變長字符串,M取值可以為0~65535之間,(VARCHAR的最大有效長度由最大行大小和使用的字符集確定。整體最大長度是65,532字節)。VARCHAR值保存時只保存需要的字符數,另加一個字節來記錄長度(如果列聲明的長度超過255,則使用兩個字節)。VARCHAR值保存時不進行填充。當值保存和檢索時尾部的空格仍保留,符合標准SQL。varchar存儲變長數據,但存儲效率沒有CHAR高。如果一個字段可能的值是不固定長度的,我們只知道它不可能超過10個字符,把它定義為 VARCHAR(10)是最合算的。VARCHAR類型的實際長度是它的值的實際長度+1。為什么"+1"呢?這一個字節用於保存實際使用了多大的長度。從空間上考慮,用varchar合適;從效率上考慮,用char合適,關鍵是根據實際情況找到權衡點。
CHAR和VARCHAR最大的不同就是一個是固定長度,一個是可變長度。由於是可變長度,因此實際存儲的時候是實際字符串再加上一個記錄字符串長度的字節(如果超過255則需要兩個字節)。如果分配給CHAR或VARCHAR列的值超過列的最大長度,則對值進行裁剪以使其適合。如果被裁掉的字符不是空格,則會產生一條警告。如果裁剪非空格字符,則會造成錯誤(而不是警告)並通過使用嚴格SQL模式禁用值的插入。
3. VARCHAR和TEXT、BlOB類型的區別
VARCHAR,BLOB和TEXT類型是變長類型,對於其存儲需求取決於列值的實際長度(在前面的表格中用L表示),而不是取決於類型的最大可能尺寸。例如,一個VARCHAR(10)列能保存最大長度為10個字符的一個字符串,實際的存儲需要是字符串的長度 ,加上1個字節以記錄字符串的長度。對於字符串'abcd',L是4而存儲要求是5個字節。
BLOB和TEXT類型需要1,2,3或4個字節來記錄列值的長度,這取決於類型的最大可能長度。VARCHAR需要定義大小,有65535字節的最大限制;TEXT則不需要。如果你把一個超過列類型最大長度的值賦給一個BLOB或TEXT列,值被截斷以適合它。
一個BLOB是一個能保存可變數量的數據的二進制的大對象。4個BLOB類型TINYBLOB、BLOB、MEDIUMBLOB和LONGBLOB僅僅在他們能保存值的最大長度方面有所不同。
BLOB 可以儲存圖片,TEXT不行,TEXT只能儲存純文本文件。4個TEXT類型TINYTEXT、TEXT、MEDIUMTEXT和LONGTEXT對應於4個BLOB類型,並且有同樣的最大長度和存儲需求。在BLOB和TEXT類型之間的唯一差別是對BLOB值的排序和比較以大小寫敏感方式執行,而對TEXT值是大小寫不敏感的。換句話說,一個TEXT是一個大小寫不敏感的BLOB。
4.總結char,varchar,text區別
長度的區別,char范圍是0~255,varchar最長是64k,但是注意這里的64k是整個row的長度,要考慮到其它的column,還有如果存在not null的時候也會占用一位,對不同的字符集,有效長度還不一樣,比如utf8的,最多21845,還要除去別的column,但是varchar在一般情況下存儲都夠用了。如果遇到了大文本,考慮使用text,最大能到4G。
效率來說基本是char>varchar>text,但是如果使用的是Innodb引擎的話,推薦使用varchar代替char
char和varchar可以有默認值,text不能指定默認值
數據庫選擇合適的數據類型存儲還是很有必要的,對性能有一定影響。這里在零碎記錄兩筆,對於int類型的,如果不需要存取負值,最好加上unsigned;對於經常出現在where語句中的字段,考慮加索引,整形的尤其適合加索引。