以下代碼會打印出什么樣的日志呢?
- #include <stdio.h>
- int a[2] = {1,2};
- int main(){
- printf("a = %p\n", a); // I
- printf("&a = %p\n", &a); // II
- printf("a + 1 = %p\n", a + 1);// III
- printf("&a + 1 = %p\n", &a + 1);// IV
- return 0;
- }
a = 0x804a014
&a = 0x804a014
a + 1 = 0x804a018
&a + 1 = 0x804a01c
沒錯,上面I 和 II打印出來的地址是一樣的,IV 要比 III 大4個字節的地址空間。下面是我對這一現象的解釋,如有不妥的地方請各位大蝦一定給於指出:
首先引用《C和指針》p141中的理論: 在C中, 在幾乎所有使用數組的表達式中,數組名的值是個指針常量,也就是數組第一個元素的地址。 它的類型取決於數組元素的類型: 如果它們是int類型,那么數組名的類型就是“指向int的常量指針“。 看到這里我想應該就知道為什么 會有I 和 III式的結果了。
對於II 和 IV 則是特殊情況,在《C和指針》p142中說到,在以下兩中場合下,數組名並不是用指針常量來表示,就是當數組名作為sizeof操作符和單目操作符&的操作數時。 sizeof返回整個數組的長度,而不是指向數組的指針的長度。 取一個數組名的地址所產生的是一個指向數組的指針,而不是一個指向某個指針常量的指針。 所以&a后返回的指針便是指向數組的指針,跟a(一個指向a[0]的指針)在指針的類型上是有區別的。
然后我們用符號表和匯編代碼來看看編譯器到底是怎樣區分&a 和 a, 並將其轉換為匯編代碼的:
通過 nm a.out 得到符號表如下:
I所對應的匯編代碼 movl $a, 4(%esp) $表示取地址,通過符號表我們知道a對應地址為0x0804a014, 所以這段代碼將會打印0x0804a014。但是我們明明在代碼里寫的是printf("a = %p\n", a), (如果a不為數組名而是一般意義的int變量,相應的匯編碼應為movl a, 4(%esp) 怎么編譯后的匯編代碼會是對a取地址呢? 本人猜測為編譯器自動給a 加了一個取值符,從而翻譯為$a。
結論: 對於用戶沒有明確給出&的編碼,編譯器翻譯自動給變量a加上取值符$, 其中取a的地址得到的指針類型由數組元素決定。
IV movl $a+8, %edx 所對應用戶代碼為printf("a = %p\n", &a + 1), 根據《C和指針》中的理論,當a前面有&操作符時,編譯器將會把a對應符號表中的地址看作指向數組的指針,sizeof(a) 為8, 從而&a + 1 將會翻譯為$a + 8 結論: 對於用戶明確給出&的編碼,編譯器將會把取a的地址得到的指針類型看作指向數組的指針。
沒錯,上面I 和 II打印出來的地址是一樣的,IV 要比 III 大4個字節的地址空間。下面是我對這一現象的解釋,如有不妥的地方請各位大蝦一定給於指出:
首先引用《C和指針》p141中的理論: 在C中, 在幾乎所有使用數組的表達式中,數組名的值是個指針常量,也就是數組第一個元素的地址。 它的類型取決於數組元素的類型: 如果它們是int類型,那么數組名的類型就是“指向int的常量指針“。 看到這里我想應該就知道為什么 會有I 和 III式的結果了。
對於II 和 IV 則是特殊情況,在《C和指針》p142中說到,在以下兩中場合下,數組名並不是用指針常量來表示,就是當數組名作為sizeof操作符和單目操作符&的操作數時。 sizeof返回整個數組的長度,而不是指向數組的指針的長度。 取一個數組名的地址所產生的是一個指向數組的指針,而不是一個指向某個指針常量的指針。 所以&a后返回的指針便是指向數組的指針,跟a(一個指向a[0]的指針)在指針的類型上是有區別的。
然后我們用符號表和匯編代碼來看看編譯器到底是怎樣區分&a 和 a, 並將其轉換為匯編代碼的:
通過 nm a.out 得到符號表如下:
- 。。。。。。。// 省略了一些與本主題無關的變量
- 0804a01c A _edata
- 0804a024 A _end
- 080484ec T _fini
- 08048508 R _fp_hw
- 080482bc T _init
- 08048330 T _start
- 0804a014 D a // a 變量保存在虛擬地址0x0804a014 中
- 0804a01c b completed.7021
- 0804a00c W data_start
- 0804a020 b dtor_idx.7023
- 080483c0 t frame_dummy
- 080483e4 T main // main函數的地址
- U printf@@GLIBC_2.0
調用gcc -S xx.c得到匯編代碼:
- .file "name_of_array.c"
- .globl a
- .data
- .align 4
- .type a, @object
- .size a, 8 // 從這里我們便知道sizeof(a) 等於8
- a:
- .long 1 // 從這里可以看出,編譯器直接把 .c文件中的int 轉化為long型
- .long 2
- .section .rodata
- .LC0:
- .string "a = %p\n"
- .LC1:
- .string "&a = %p\n"
- .LC2:
- .string "a + 1 = %p\n"
- .LC3:
- .string "&a + 1 = %p\n"
- .text
- .globl main
- .type main, @function
- main:
- pushl %ebp
- movl %esp, %ebp
- andl $-16, %esp
- subl $16, %esp
- movl $.LC0, %eax // I 所對應的匯編代碼
- movl $a, 4(%esp)
- movl %eax, (%esp)
- call printf
- movl $.LC1, %eax // II 所對應的匯編代碼
- movl $a, 4(%esp)
- movl %eax, (%esp)
- call printf
- movl $.LC2, %eax // III 所對應的匯編代碼
- movl $a+4, 4(%esp)
- movl %eax, (%esp)
- call printf
- movl $a+8, %edx // IV 所對應的匯編代碼
- movl $.LC3, %eax
- movl %edx, 4(%esp)
- movl %eax, (%esp)
- call printf
- movl $0, %eax
- leave
- ret
- .size main, .-main
- .ident "GCC: (Ubuntu 4.4.3-4ubuntu5) 4.4.3"
- .section .note.GNU-stack,"",@progbits
II 略過
III movl $a+4, 4(%esp) 對a加上取值符得到$a,因為數組元素類型為int,所以指針每次需要移動四個字節的地址空間。 所以c代碼 a + 1 翻譯為匯編 $a + 4IV movl $a+8, %edx 所對應用戶代碼為printf("a = %p\n", &a + 1), 根據《C和指針》中的理論,當a前面有&操作符時,編譯器將會把a對應符號表中的地址看作指向數組的指針,sizeof(a) 為8, 從而&a + 1 將會翻譯為$a + 8 結論: 對於用戶明確給出&的編碼,編譯器將會把取a的地址得到的指針類型看作指向數組的指針。
總結:編譯器通過用戶是否給出&,來決定指針變量的類型,進而翻譯為相應的匯編碼。 或者換句話說,&符只是用來表明變量a取地址后得到的值,被看作什么類型的指針,而不是用來表示對a進行取地址操作。