一、varchar(100) 和 varchar(10) 的區別在哪里
一般初學者會認為,二者占用的空間是一樣的。比如說我存儲5個char,二者都是實際占用了5個char了【不准確的想法:varchar在實際存儲的時候會多一個byte用來存放長度】。
但是深入一下,設計數據庫的時候,二者一樣嗎?答案是否定的。【至少varchar類型需要在數據之前利用一個或者兩個字節來存儲數據的長度】並且二者在內存中的操作方式也是不同的。
下面的例子中有體現如現在用戶需要存儲一個地址信息。根據評估,只要使用100個字符就可以了。但是有些數據庫管理員會認為,反正varchar數據類型是根據實際的需要來分配長度的,還不如給其大一點的呢。為此他們可能會為這個字段一次性分配200個字符的存儲空間。
1、存儲空間相同,但是對內存的消耗是不同的
這VARCHAR(100)與VARCHAR(200)真的相同嗎?結果是否定的。
雖然他們用來存儲90個字符的數據,其存儲空間相同,但是對於內存的消耗是不同的。
對於VARCHAR數據類型來說,硬盤上的存儲空間雖然都是根據實際字符長度來分配存儲空間的,但是對於內存來說,則不是,其是使用固定大小的內存塊來保存值。
簡單的說,就是使用字符類型中定義的長度,即200個字符空間。顯然,這對於排序或者臨時表(這些內容都需要通過內存來實現)作業會產生比較大的不利影響。假設VARCHAR(100)與VARCHAR(200)類型,實際存90個字符,它不會對存儲端產生影響(就是實際占用硬盤是一樣的)。但是,它確實會對查詢產生影響,因為當MySql 創建臨時表(SORT,ORDER等)時,VARCHAR會轉換為CHAR,轉換后的CHAR的長度就是varchar的長度,在內存中的空間就變大了,在排序、統計時候需要掃描的就越多,時間就越久。
所以如果某些字段會涉及到文件排序或者基於磁盤的臨時表時,分配VARCHAR數據類型時仍然不能夠太過於慷慨。還是要評估實際需要的長度,然后選擇一個最長的字段來設置字符長度。如果為了考慮冗余,可以留10%左右的字符長度。千萬不能認為其為根據實際長度來分配存儲空間,而隨意的分配長度,或者說干脆使用最大的字符長度。
2、char 與 varchar 對產生碎片的區別
從碎片角度進行考慮,使用CHAR字符型時,由於存儲空間都是一次性分配的。為此某個字段的內容,其都是存儲在一起的。單從這個角度來講,其不存在碎片的困擾。而 varchar 可變長度的字符數據類型,其存儲的長度是可變的。當其更改前后數據長度不一致時,就不可避免的會出現碎片的問題。故使用可變長度的字符型數據時,數據庫管理員要時不時的對碎片進行整理。如執行數據庫導出導入作業,來消除碎片。
3、從長度是否相近考慮使用 char 或 varchar
考慮其長度的是否相近,如果某個字段其長度雖然比較長,但是其長度總是近似的,如一般在90個到100個字符之間,甚至是相同的長度。此時比較適合采用CHAR字符類型。比較典型的應用就是MD5哈希值。當利用MD5哈希值來存儲用戶密碼時,就非常適和采用CHAR字符類型,因為其長度是相同的。
另外,像用來存儲用戶的身份證號碼等等,一般也建議使用CHAR類型的數據。
另外請大家考慮一個問題,CHAR(1)與VARCHAR(1)兩這個定義,會有什么區別呢?雖然這兩個都只能夠用來保存單個的字符,但是VARCHAR要比CHAR多占用一個存儲位置。這主要是因為使用VARCHAR數據類型時,會多用1個字節用來存儲長度信息。這個管理上的開銷char字符類型是沒有的。
4、總結
二者在磁盤上存儲占的空間是一樣的,區別有二:
(1)第一:一個變長,一個固定長度。如果長度相近,盡量使用 char 類型
(2)第二:在內存中的操作方式,varchar也是按照最長的方式在內存中進行操作的。比如說要進行排序的時候,varcahr(100)是按照100這個長度來進行的。
(3)使用 varchar 數據類型,會多用 1 個字節來存儲長度信息,造成管理上的開銷。
(4)char 不會產生碎片,varchar 會產生碎片,需要碎片整理。
二、varchar的最大長度是多少
1、一個字符占多少字節
具體還是要看版本的,一個字符占用3個字節 ,一個漢字(包括數字)占用3個字節 = 一個字符
MySQL 4.0版本以下,varchar(100),指的是100字節,如果存放UTF8漢字時,只能存33個(每個漢字3字節)
MySQL 5.0版本以上,varchar(100),指的是100字符,無論存放的是數字、字母還是UTF8漢字(每個漢字3字節),都可以存放100個。
UTF8編碼中一個漢字(包括數字)占用3個字節
GBK編碼中一個漢字(包括數字)占用2個字節
2、varchar 的最大長度是多少,可以存儲多少漢字
mysql 的varchar字段的類型雖然最大長度是65535,但是並不是能存這么多數據,最大可以到65533,其中需要1到2個字節來存儲數據長度(如果列聲明的長度超過255,則使用2個字節來存儲長度,否則1個字節)。當不允許非空字段的時候(因為要用一個字節來存儲不可為空的標識),當允許非空字段的時候只能到65532(省下了存儲非空的那個字節)。
行中可以用的字節數如下計算:
(1)字段非空時候:varchar(65535) -2 bytes (存儲長度,按2個算) - 1byte (latin1類型) - 1 (null byte)=65531 字節可以用。減1的原因是實際行存儲從第二個字節開始。
(2)字段可以空時候:varchar(65535) -2 bytes (存儲長度,按2個算) - 1byte (latin1類型) =65532 字節可以用。
根據這個最大字節數,以及編碼方式,可以計算能存儲的漢字數。
三、字符、字節、位,之間的關系
1、位
數據存儲的最小單位。每個二進制數字0或者1就是1個位。
2、字節
8個位構成一個字節;即:1 byte (字節) = 8 bit(位);
1 KB = 1024 B(字節);1 MB = 1024 KB; (2^10 B)1 GB = 1024 MB; (2^20 B)1 TB = 1024 GB; (2^30 B)
3、字符
a、A、中、+、*、の……均表示一個字符;一般 utf-8 編碼下,一個漢字字符占用 3 個字節;數字屬於漢字,和漢字占用一樣字節。一般 gbk 編碼下,一個漢字字符 占用 2 個 字節;