歡迎轉載,轉載請注明出處,謝謝.
目錄
一、什么是sizeof
二、sizeof用法
三、基本數據類型的sizeof
四、復雜數據類型的sizeof及其數據對齊問題
五、class類型的sizeof特別探討
六、總結
一、什么是sizeof
首先看一下sizeof在msdn上的定義:
The sizeof keyword gives the amount of storage, in bytes, associated with a variable or a type (including aggregate types). This keyword returns a value of type size_t.
看到return這個字眼,是不是想到了函數?錯了,sizeof不是一個函數,你見過給一個函數傳參數,而不加括號的嗎?sizeof可以,所以sizeof不是函數。網上有人說sizeof是一元操作符,但是我並不這么認為,因為sizeof更像一個特殊的宏,它是在編譯階段求值的。舉個例子:
2 cout << sizeof ( 1 == 2 ) << endl; // == 操作符返回bool類型,相當於 cout<<sizeof(bool)<<endl;
3
在編譯階段已經被翻譯為:
2 cout << 1 << endl;
這里有個陷阱,看下面的程序:
2 cout << sizeof (a = 3 ) << endl;
3 cout << a << endl;
輸出為什么是4,0而不是期望中的4,3???就在於sizeof在編譯階段處理的特性。由於sizeof不能被編譯成機器碼,所以sizeof作用范圍內,也就是()里面的內容也不能被編譯,而是被替換成類型。=操作符返回左操作數的類型,所以a=3相當於int,而代碼也被替換為:
int a = 0;
cout<<4<<endl;
cout<<a<<endl;
"abcd"返回是字符串類型
所以,sizeof是不可能支持鏈式表達式的,這也是和一元操作符不一樣的地方。
結論:不要把sizeof當成函數,也不要看作一元操作符,把他當成一個特殊的編譯預處理。
sizeof有兩種用法:
(1)sizeof(object) 或 sizeof object
也就是對對象使用sizeof,也可以寫成sizeof object 的形式。例如:
(2)sizeof(typename)
也就是對類型使用sizeof,注意這種情況下寫成sizeof typename是非法的。下面舉幾個例子說明一下:
2 cout << sizeof (i) << endl; // sizeof(object)的用法,合理
3 cout << sizeof i << endl; // sizeof object的用法,合理
4 cout << sizeof 2 << endl; // 2被解析成int類型的object, sizeof object的用法,合理
5 cout << sizeof ( 2 ) << endl; // 2被解析成int類型的object, sizeof(object)的用法,合理
6 cout << sizeof ( int ) << endl; // sizeof(typename)的用法,合理
7 cout << sizeof int << endl; // 錯誤!對於操作符,一定要加()
可以看出,加()是永遠正確的選擇。
結論:不論sizeof要對誰取值,最好都加上()。
(1)C++內置數據類型
32位C++中的基本數據類型,
| bool | char | short int(short) | int | long int(long) | float | double | long double | |
| sizeof | 1 | 1 | 2 | 4 | 4 | 4 | 8 | 10 |
char,short int(short),int,long int(long),float,double, long double大小分別是:1,2,4,4,4,8, 10。
考慮下面的代碼:
unsigned影響的只是最高位bit的意義,數據長度不會被改變的。
結論:unsigned不能影響sizeof的取值。
(2)自定義數據類型
typedef可以用來定義C++自定義類型。考慮下面的問題:
2 typedef long DWORD;
3 cout << ( sizeof ( short ) == sizeof (WORD)) << endl; // 相等,輸出1
4 cout << ( sizeof ( long ) == sizeof (DWORD)) << endl; // 相等,輸出1
結論:自定義類型的sizeof取值等同於它的類型原形。
(3)函數類型
考慮下面的問題:
2 double f2(){ return 0.0 ;}
3 void f3(){}
4
5 cout << sizeof (f1()) << endl; // f1()返回值為int,因此被認為是int
6 cout << sizeof (f2()) << endl; // f2()返回值為double,因此被認為是double
7 cout << sizeof (f3()) << endl; // 錯誤!無法對void類型使用sizeof
8 cout << sizeof (f1) << endl; // 錯誤!無法對函數指針使用sizeof
9 cout << sizeof * f2 << endl; // *f2,和f2()等價,因為可以看作object,所以括號不是必要的。被認為是double
10
結論:對函數使用sizeof,在編譯階段會被函數返回值的類型取代
(4)、指針問題
考慮下面問題:
cout<<sizeof(string*)<<endl; // 4
cout<<sizeof(int*)<<endl; // 4
cout<<sizof(char****)<<endl; // 4
可以看到,不管是什么類型的指針,大小都是4的,因為指針就是32位的物理地址。
結論:只要是指針,大小就是4。(64位機上要變成8也不一定)。
C++中的指針表示實際內存的地址。和C不一樣的是,C++中取消了模式之分,也就是不再有small,middle,big,取而代之的是統一的flat。flat模式采用32位實地址尋址,而不再是c中的 segment:offset模式。舉個例子,假如有一個指向地址 f000:8888的指針,如果是C類型則是8888(16位, 只存儲位移,省略段),far類型的C指針是f0008888(32位,高位保留段地址,地位保留位移),C++類型的指針是f8888(32位,相當於段地址*16 + 位移,但尋址范圍要更大)。
(5)、數組問題
考慮下面問題:
2 char b[] = { ' a ' , ' b ' , ' c ' , ' d ' , ' e ' , ' f ' };
3 int c[ 20 ] = { 3 , 4 };
4 char d[ 2 ][ 3 ] = { " aa " , " bb " };
5
6
7 cout << sizeof (a) << endl; // 7, 表示字符串
8 cout << sizeof (b) << endl; // 6, 僅表示字符數組
9 cout << sizeof (c) << endl; // 80
10 cout << sizeof (d) << endl; // 6 11
2 cout << sizeof ( * b) << endl; // 1
3 cout << sizeof ( * c) << endl; // 4
4 cout << sizeof ( * d) << endl; // 3
特別如果字符數組表示字符串的話,數組末自動插入的'\0',在sizeof時不能遺漏
數組a的大小在定義時未指定,編譯時給它分配的空間是按照初始化的值確定的,也就是7。c是多維數組,占用的空間大小是各維數的乘積,也就是6。可以看出,數組的大小就是他在編譯時被分配的空間,也就是各維數的乘積*數組元素的大小。
結論:數組的大小是各維數的乘積*數組元素的大小。
這里有一個陷阱:
2
3 cout << sizeof (d) << endl; // 4
d是我們常說的動態數組,但是他實質上還是一個指針,所以sizeof(d)的值是4。
再分析下面的多維數組問題:
2
3 cout << sizeof (a) << endl; // 4
4 cout << sizeof ( * a) << endl; // 72
5 cout << sizeof ( ** a) << endl; // 24
6 cout << sizeof ( *** a) << endl; // 4
7 cout << sizeof ( **** a) << endl; // 8
很費解的多維數組定義,改用typedef定義如下:
2 ArrType * a;
現在是不是很清晰了?(關於typedef用法的探討,請見文章)
typedef (
double
*
) ArrType [
3
][
6
];2
ArrType
*
a;3

4
cout
<<
sizeof
(a)
<<
endl;
//
4
5
cout
<<
sizeof
(
*
a)
<<
endl;
//
double * [3][6] : 3*6*sizeof(double *) = 72
6
cout
<<
sizeof
(
**
a)
<<
endl;
//
double * [6] : 6*sizeof(double *) = 24
7
cout
<<
sizeof
(
***
a)
<<
endl;
//
sizeof(double *) = 4
8
cout
<<
sizeof
(
****
a)
<<
endl;
//
sizeof(double) = 8
a是一個很奇怪的定義,他表示一個指向 double*[3][6]類型數組的指針,此3×6數組中存儲的是指向double的指針。既然是指針,所以sizeof(a)就是4
既然a是指向double*[3][6]類型的指針:
*a就表示一個double*[3][6]的多維數組類型,因此sizeof(*a)=3*6*sizeof(double*)=72。
**a表示一個double*[6]類型的數組,所以sizeof(**a)=6*sizeof(double*)=24。
***a就表示其中的第一個元素,也就是double*了,所以sizeof(***a)=4。
****a,就是一個double了,所以sizeof(****a)=sizeof(double)=8
(6)、向函數傳遞數組的問題。
考慮下面的問題:
2 using namespace std;
3
4 int Sum( int i[])
5 {
6 int sumofi = 0 ;
7 for ( int j = 0 ; j < sizeof (i) / sizeof ( int ); j ++ ) // 實際上,sizeof(i) = 4
8 {
9 sumofi += i[j];
10 }
11 return sumofi;
12 }
13
14 int main()
15 {
16 int allAges[ 6 ] = { 21 , 22 , 22 , 19 , 34 , 12 };
17 cout << Sum(allAges) << endl;
18 system( " pause " );
19 return 0 ;
20 }
21
22
Sum的本意是用sizeof得到數組的大小,然后求和。但是實際上,傳入自函數Sum的,只是一個int 類型的指針,所以sizeof(i)=4,而不是24,所以會產生錯誤的結果。解決這個問題的方法使是用指針或者引用。
使用指針的情況:
2 {
3 int sumofi = 0 ;
4 for ( int j = 0 ; j < sizeof ( * i) / sizeof ( int ); j ++ ) // sizeof(*i) = 24
5 {
6 sumofi += ( * i)[j];
7 }
8 return sumofi;
9 }
10
11 int main()
12 {
13 int allAges[] = { 21 , 22 , 22 , 19 , 34 , 12 };
14 cout << Sum( & allAges) << endl;
15 system( " pause " );
16 return 0 ;
17 }
18
19
在這個Sum里,i是一個指向i[6]類型的指針,注意,這里不能用int Sum(int (*i)[])聲明函數,而是必須指明要傳入的數組的大小,不然sizeof(*i)無法計算。但是在這種情況下,再通過sizeof來計算數組大小已經沒有意義了,因為此時大小是指定為6的。
使用引用的情況和指針相似:
2 {
3 int sumofi = 0 ;
4 for ( int j = 0 ; j < sizeof (i) / sizeof ( int ); j ++ )
5 {
6 sumofi += i[j];
7 }
8 return sumofi;
9 }
10
11 int main()
12 {
13 int allAges[] = { 21 , 22 , 22 , 19 , 34 , 12 };
14 cout << Sum(allAges) << endl;
15 system( " pause " );
16 return 0 ;
17 }
18
這種情況下sizeof的計算同樣無意義,所以用數組做參數,而且需要遍歷的時候,函數應該有一個參數來說明數組的大小,而數組的大小在數組定義的作用域內通過sizeof求值。因此上面的函數正確形式應該是:
2 using namespace std;
3
4 int Sum( int * i, unsigned int n)
5 {
6 int sumofi = 0 ;
7 for ( int j = 0 ; j < n; j ++ )
8 {
9 sumofi += i[j];
10 }
11 return sumofi;
12 }
13
14 int main()
15 {
16 int allAges[] = { 21 , 22 , 22 , 19 , 34 , 12 };
17 cout << Sum(i, sizeof (allAges) / sizeof ( int )) << endl;
18 system( " pause " );
19 return 0 ;
20 }
21
22
(7)、C風格字符串與C++風格字符串類(String)的sizeof和strlen
考慮下面的問題:
2 using namespace std;
3
4 char a[] = " abcdef " ;
5 char b[ 20 ] = " abcdef " ;
6 string s = " abcdef " ;
7
8 cout << strlen(a) << endl; // 6,字符串長度
9 cout << sizeof (a) << endl; // 7,字符串容量
10 cout << strlen(b) << endl; // 6,字符串長度
11 cout << sizeof (b) << endl; // 20,字符串容量
12 // cout<<strlen(s)<<endl; // 錯誤!s不是一個字符指針。
13 cout << sizeof (s) << endl; // 16, 這里不代表字符串的長度,而是string類的大小
14
15 a[ 1 ] = ' \0 ' ;
16 cout << strlen(a) << endl; // 1
17 cout << sizeof (a) << endl; // 7,sizeof是恆定的,因為是前面已經固定分配過7個單元,雖然現在字符串變為空串
18
記住:String是class類型。(關於class類型的sizeof請參見第五節)
strlen是尋找從指定地址開始,到出現的第一個0之間的字符個數,他是在運行階段執行的,而sizeof是得到數據的大小,在這里是得到字符串的容量。所以對同一個對象而言,sizeof的值是恆定的。string是C++類型的字符串,他是一個類,所以sizeof(s)表示的並不是字符串的長度,而是類string的大小。strlen(s)根本就是錯誤的,因為strlen的參數是一個字符指針,如果想用strlen得到s字符串的長度,應該使用sizeof(s.c_str()),因為string的成員函數c_str()返回的是字符串的首地址。實際上,string類提供了自己的成員函數來得到字符串的容量和長度,分別是Capacity()和Length()。string封裝了常用了字符串操作,所以在C++開發過程中,最好使用string代替C類型的字符串。
STL中的String類:
string的sizeof和平台相關的,string類最簡單的可以近似認為是包含兩個數據成員:char *指針成員( 表示字符數組)和 int成員(表示字符串長度)。但是事實上並不是這樣定義的,可能還有其他數據成員,如編譯器插入指針vptr等。因此根據不同的實現,可以查看String類的定義中如何定義。比如在我現在機器上,sizeof(string) = 16
四、復雜數據類型中sizeof及其數據對齊問題
(1)、union的sizeof問題與cpu的對界
考慮下面問題:(默認對齊方式)
2 {
3 double a;
4 int b;
5 };
6
7 union u2 //4對齊
8 {
9 char a[ 13 ];
10 int b;
11 };
12
13 union u3 //1對齊
14 {
15 char a[ 13 ];
16 char b;
17 };
18
19 cout << sizeof (u) << endl; // 8
20 cout << sizeof (u2) << endl; // 16
21 cout << sizeof (u3) << endl; // 13
都知道union的大小取決於它所有的成員中,占用空間最大的一個成員的大小。所以對於u來說,大小就是最大的double類型成員a了,所以sizeof(u)=sizeof(double)=8。但是對於u2和u3,最大的空間都是char[13]類型的數組,為什么u3的大小是13,而u2是16呢?關鍵在於u2中的成員int b。由於int類型成員的存在,使u2的對齊方式變成4(4字節對齊),也就是說,u2的大小必須在4的對界上,所以占用的空間變成了16(最接近13的對界)。
結論:復合數據類型,如union,struct,class的對齊方式為成員中對齊方式最大的成員的對齊方式。
編譯器對界:
首先解釋下CPU對界問題,32的C++采用8位對界來提高運行速度,所以編譯器會盡量把數據放在它的對界上以提高內存命中率。
通過程序可以改變編譯器對界,使用#pragma pack(x)宏可以改變編譯器的對界方式,默認是8。
編譯器對界與實際對界判決原則:
C++固有類型的對界取編譯器對界方式(默認或指定)與自身大小中較小的一個.
例如,指定編譯器按2對界,int類型的大小是4,則int的對界為2和4中較小的2。
在默認的對界方式下,因為幾乎所有的數據類型都不大於默認的對界方式8(除了long double),所以所有的固有類型的對界方式可以認為就是類型自身的大小。
更改一下上面的程序:
2 union u2
3 {
4 char a[ 13 ];
5 int b;
6 };
7
8 union u3
9 {
10 char a[ 13 ];
11 char b;
12 };
13 #pragma pack( 8 )
14
15 cout << sizeof (u2) << endl; // 14
16 cout << sizeof (u3) << endl; // 13
由於手動更改對界方式為2,所以int的對界也變成了2,u2的對界取成員中最大的對界,也是2了,所以此時sizeof(u2)=14。
結論:C++固有類型的對界取編譯器對界方式與自身大小中較小的一個。
(2)、struct的sizeof問題
因為對齊問題使結構體的sizeof變得比較復雜,看下面的例子:(默認對齊方式下)
2 {
3 char a;
4 double b;
5 int c;
6 char d;
7 };
8
9 struct s2
10 {
11 char a;
12 char d;
13 int c;
14 double b;
15 };
16
17 cout << sizeof (s1) << endl; // 24
18 cout << sizeof (s2) << endl; // 16
這里數據對齊與struct中元素的順序相關. 上面例子中只是改變了struct中成員的定義順序
同樣是兩個char類型,一個int類型,一個double類型,但是因為對界問題,導致他們的大小不同。
計算結構體大小可以采用元素擺放法,我舉例子說明一下:首先,CPU判斷結構體的對界,根據上一節的結論,s1和s2的對界都取最大的元素類型,也就是double類型的對界8。然后開始擺放每個元素。
對於s1,首先把a放到8的對界,假定是0,此時下一個空閑的地址是1,但是下一個元素d是double類型,要放到8的對界上,離1最接近的地址是8了,所以d被放在了8,此時下一個空閑地址變成了16,下一個元素c的對界是4,16可以滿足,所以c放在了16,此時下一個空閑地址變成了20,下一個元素d需要對界1,也正好落在對界上,所以d放在了20,結構體在地址21處結束。由於s1的大小需要是8的倍數,所以21-23的空間被保留,s1的大小變成了24。
對於s2,首先把a放到8的對界,假定是0,此時下一個空閑地址是1,下一個元素的對界也是1,所以b擺放在1,下一個空閑地址變成了2;下一個元素c的對界是4,所以取離2最近的地址4擺放c,下一個空閑地址變成了8,下一個元素d的對界是8,所以d擺放在8,所有元素擺放完畢,結構體在15處結束,占用總空間為16,正好是8的倍數。
總結:這里計算sizeof既要考慮數據對齊(整體上最大元素的size對齊,滿足之后還要滿足struct中其他元素的對齊),又要考慮最節約存儲空間的原則。
(3)、嵌套struct類定義中的sizeof
這里有個陷阱,對於結構體中的結構體成員,不要認為它的對齊方式就是他的大小,看下面的例子:
2 {
3 char a[ 8 ];
4 };
5
6 struct s2
7 {
8 double d;
9 };
10
11 struct s3
12 {
13 s1 s;
14 char a;
15 };
16
17 struct s4 //s1為1對齊,大小為8
18 {
19
20 s1 s;
21 double d;
22 };
23
24 struct s5
25 {
26 s2 s;
27 char a;
28 };
29
30
31
32 cout << sizeof (s1) << endl; // 8
33 cout << sizeof (s2) << endl; // 8
34 cout << sizeof (s3) << endl; // 9
35 cout << sizeof (s4) << endl; // 16
36 cout << sizeof (s5) << endl; // 16
再考慮:
2 {
3 char a[ 9 ];
4 };
5
6 struct s2
7 {
8 double d;
9 };
10
11 struct s3
12 {
13 s1 s;
14 char a;
15 };
16
17 struct s4 //s1為1對齊,大小為9
18 {
19
20 s1 s;
21 double d;
22 };
23
24 struct s5
25 {
26 s2 s;
27 char a;
28 };
29
30
31
32 cout << sizeof (s1) << endl; // 9
33 cout << sizeof (s2) << endl; // 8
34 cout << sizeof (s3) << endl; // 10
35 cout << sizeof (s4) << endl; // 24
36 cout << sizeof (s5) << endl; // 16
s1和s2大小雖然都是8,但是s1的對齊方式是1,s2是8(double),所以在s3和s4中才有這樣的差異。
所以,在自己定義結構體的時候,如果空間緊張的話,最好考慮對齊因素來排列結構體里的元素。
(4)、位域結構體中的對齊問題。
在結構體和類中,可以使用位域來規定某個成員所能占用的空間,所以使用位域能在一定程度上節省結構體占用的空間。不過考慮下面的代碼:
2 {
3 int i: 8 ;
4 int j: 4 ;
5 double b;
6 int a: 3 ;
7 };
8
9 struct s2
10 {
11 int i;
12 int j;
13 double b;
14 int a;
15 };
16
17 struct s3
18 {
19 int i;
20 int j;
21 int a;
22 double b;
23 };
24
25 struct s4
26 {
27 int i: 8 ;
28 int j: 4 ;
29 int a: 3 ;
30 double b;
31 };
32
33 struct s4
34 {
35 double b;
36 int i: 8 ;
37 int j: 4 ;
38 int a: 3 ;
39 };
40
41 cout << sizeof (s1) << endl; // 24
42 cout << sizeof (s2) << endl; // 24
43 cout << sizeof (s3) << endl; // 24
44 cout << sizeof (s4) << endl; // 16
45 cout << sizeof (s5) << endl; // 16
可以看到,有double存在會干涉到位域(sizeof的算法參考上一節),所以使用位域的的時候,最好把float類型和double類型放在程序的開始或者最后。不要讓double干擾你的位域
五、類class 中的sizeof特別探討
寫在前面,本節假設你看過《Inside the C++ Object Model》,如果沒有,最好了解類與對象在內存中map問題
這里引用《Inside the C++ Object Model》中的對象模型的內存鏡像圖:
(一)不考慮繼承關系(單繼承、多繼承、虛繼承等)
(1)不帶virtual函數時
空類:
2 {
3
4 };
5
6 cout << sizeof (A) << endl; // 1
空類總是返回1
2 private :
3 int value;
4 double a;
5 public :
6
7 };
8
9 cout << sizeof (B) << endl; // 16
和struct一樣,也要考慮對齊問題,以及成員的順序
因為成員函數不會分配空間,所以sizeof時只計算數據成員的大小
(2)帶virtual函數時
單繼承情況下,只要class中存在virtual函數,編譯器在編譯時就會自動插入一個指向虛函數表的指針vptr(大小為4字節). 不同的編譯器vptr插入的位置可能不同,VC編譯器插入vptr的位置一般是數據成員開始。
下例在MinGW Develper Studio2.05(gcc)下編譯,VC 6.0編譯器下結果為24 24, 我不太理解為什么...
2 {
3 public :
4 virtual void foo() {}
5 private :
6 int m1;
7 double m2;
8 };
9
10 class B
11 {
12 public :
13 virtual void foo() {}
14 private :
15 double m2;
16 int m1;
17 };
18
19
20 cout << sizeof (A) << endl; // 16
21 cout << sizeof (B) << endl; // 24
(3)帶static成員時
2 private :
3 int value;
4 double a;
5 static int CST;
6 public :
7 };
8
9 cout << sizeof (A) << endl; // 16
因為static成員是分配在全局區為類的所有對象共享(VC編譯器可能為了方便將其放入文字常量表), sizeof時不應該計入sttic成員
(二)繼承關系下
(1)單繼承情況下
總體上講, 派生類中需要考慮基類子類型(subtype)的問題,派生對象要考慮基類子對象的問題。
2 {
3 public :
4
5 private :
6 int m1;
7 double m2;
8 };
9
10 class B : public A
11 {
12 public :
13
14 private :
15 int m3;
16 };
17
18 cout << sizeof (A) << endl; // 16
19 cout << sizeof (B) << endl; // 24
同樣,要考慮陷阱:基類對齊字節不等於大小,如下例:
2 {
3 public :
4
5 private :
6 char m1[ 8 ];
7
8 };
9
10 class B : public A
11 {
12 public :
13
14 private :
15 char m3;
16 };
17
18 cout << sizeof (A) << endl; // 8
19 cout << sizeof (B) << endl; // 9
2 {
3 public :
4
5 private :
6 char m1[ 9 ];
7
8 };
9
10 class B : public A
11 {
12 public :
13
14 private :
15 int m3;
16 };
17
18 cout << sizeof (A) << endl; // 9
19 cout << sizeof (B) << endl; // 16
同樣道理,如果一直繼承下去,考慮的問題同上。有虛函數不要忘記vptr指針
