轉自:http://www.cnblogs.com/yaozhongxiao/archive/2010/08/08/1795338.html
1. 編譯單元(模塊):
在ide開發工具大行其道的今天,對於編譯的一些概念很多人已經不再清楚了,很多程序員最怕的就是處理連接錯誤(link error) 因為它不像編譯錯誤那樣可以給出你程序錯誤的具體位置,你常常對這種錯誤感到懊惱,但是如果你經常使用gcc,makefile等工具在linux或者嵌入式下做開發工作的話,那么你可能非常的理解編譯與連接的區別!當在vc這樣的開發工具上編寫完代碼,點擊編譯按鈕准備生成exe文件時,vc其實做了兩步工作,第一步,將每個.cpp(.c)和相應.h文件編譯成obj文件;第二步,將工程中所有的obj文件進行link生成最終的.exe文件,那么錯誤就有可能在兩個地方產生,一個是編譯時的錯誤,這個主要是語法錯誤,另一個是連接錯誤,主要是重復定義變量等。我們所說的編譯單元就是指在編譯階段生成的每個obj文件,一個obj文件就是一個編譯單元,也就是說一個cpp(.c)和它相應的.h文件共同組成了一個編譯單元,一個工程由很多個編譯單元組成,每個obj文件里包含了變量存儲的相對地址等 。
2. 聲明與定義的區別
函數或變量在聲明時,並沒有給它實際的物理內存空間,它有時候可以保證你的程序編譯通過,但是當函數或變量定義的時候,它就在內存中有了實際的物理空間,如果你在編譯模塊中引用的外部變量沒有在整個工程中任何一個地方定義的話, 那么即使它在編譯時可以通過,在連接時也會報錯,因為程序在內存中找不到這個變量!你也可以這樣理解,對同一個變量或函數的聲明可以有多次,而定義只能有一次!
3. extern的作用
extern有兩個作用,第一個 當它與" c" 一起連用時,如: extern " c" void fun(int a int b) 則告訴編譯器在編譯fun這個函數名時按着c的規則去翻譯相應的函數名而不是c++的, c++的規則在翻譯這個函數名時會把fun這個名字變得面目全非,可能是fun abc_int_int#$也可能是別的,這要看編譯器的" 脾氣" 了(不同的編譯器采用的方法不一樣),為什么這么做呢,因為c++支持函數的重載啊,在這里不去過多的論述這個問題,如果你有興趣可以去網上搜索,相信你可以得到滿意的解釋!
當extern不與" c" 在一起修飾變量或函數時,如在頭文件中: extern int g_int 它的作用就是聲明函數或全局變量的作用范圍的關鍵字,其聲明的函數和變量可以在本模塊活其他模塊中使用,記住它是一個聲明不是定義!也就是說b模塊(編譯單元)要是引用模塊(編譯單元)a中定義的全局變量或函數時,它只要包含a模塊的頭文件即可 在編譯階段,模塊b雖然找不到該函數或變量,但它不會報錯,它會在連接時從模塊a生成的目標代碼中找到此函數。
如果你對以上幾個概念已經非常明白的話,那么讓我們一起來看以下幾種全局變量/常量的使用區別:
1. 用extern修飾的全局變量
以上已經說了extern的作用,下面我們來舉個例子 如:
在test1.h中有下列聲明:
#ifndef test1h
#define test1h
extern char g_str[] // 聲明全局變量g_str
void fun1()
#endif
在test1.cpp中
#include " test1.h"
char g_str[] = " 123456" // 定義全局變量g_str
void fun1()
{
cout < < g_str < < endl
}
以上是test1模塊, 它的編譯和連接都可以通過 如果我們還有test2模塊也想使用g_str 只需要在原文件中引用就可以了
#include " test1.h"
void fun2()
{
cout < < g_str < < endl
}
以上test1和test2可以同時編譯連接通過,如果你感興趣的話可以用ultraedit打開test1.obj 你可以在里面着" 123456" 這個字符串 但是你卻不能在test2.obj里面找到,這是因為g_str是整個工程的全局變量,在內存中只存在一份 test2.obj這個編譯單元不需要再有一份了,不然會在連接時報告重復定義這個錯誤!
有些人喜歡把全局變量的聲明和定義放在一起,這樣可以防止忘記了定義,如把上面test1.h改為
extern char g_str[] = " 123456" // 這個時候相當於沒有extern
然后把test1.cpp中的g_str的定義去掉 這個時候再編譯連接test1和test2兩個模塊時,會報連接錯誤,這是因為你把全局變量g_str的定義放在了頭文件之后,test1.cpp這個模塊包含了test1.h所以定義了一次g_str 而 test2.cpp也包含了test1.h所以再一次定義了g_str 這個時候連接器在連接test1和test2時發現兩個g_str。如果你非要把g_str的定義放在test1.h中的話,那么就把test2的代碼中#include " test1.h" 去掉換成:
extern char g_str[]
void fun2()
{
cout < < g_str < < endl
}
這個時候編譯器就知道g_str是引自於外部的一個編譯模塊了,不會在本模塊中再重復定義一個出來,但是我想說這樣做非常糟糕,因為你由於無法在test2.cpp中使用#include " test1.h" 那么test1.h中聲明的其他函數你也無法使用了,除非也用都用extern修飾,這樣的話你光聲明的函數就要一大串,而且頭文件的作用就是要給外部提供接口使用的,所以請記住, 只在頭文件中做聲明,真理總是這么簡單。
2. 用static修飾的全局變量
首先,我要告訴你static與extern是一對“水火不容”的家伙,也就是說extern和static不能同時修飾一個變量;
其次,static修飾的全局變量聲明與定義同時進行,也就是說當你在頭文件中使用static聲明了全局變量后,它也同時被定義了;
最后,static修飾全局變量的作用域只能是本身的編譯單元,也就是說它的“全局”只對本編譯單元有效,其他編譯單元則看不到它。一般定義static全局變量時,都把它放在原文件中而不是頭文件,這樣就不會給其他模塊造成不必要的信息污染,同樣記住這個原則吧!
如:
test1.h:
#ifndef test1h
#define test1h
static char g_str[] = " 123456"
void fun1()
#endif
test1.cpp:
#include " test1.h"
void fun1()
{
cout < < g_str < < endl
}
test2.cpp
#include " test1.h"
void fun2()
{
cout < < g_str < < endl
}
以上兩個編譯單元可以連接成功 當你打開test1.obj時,你可以在它里面找到字符串" 123456" 同時你也可以在test2.obj中找到它們,它們之所以可以連接成功而沒有報重復定義的錯誤是因為雖然它們有相同的內容,但是存儲的物理地址並不一樣,就像是兩個不同變量賦了相同的值一樣,而這兩個變量分別作用於它們各自的編譯單元。
也許你比較較真,自己偷偷的跟蹤調試上面的代碼 結果你發現兩個編譯單元(test1 test2)的g_str的內存地址相同,於是你下結論static修飾的變量也可以作用於其他模塊,但是我要告訴你,那是你的編譯器在欺騙你,大多數編譯器都對代碼都有優化功能,以達到生成的目標程序更節省內存,執行效率更高,當編譯器在連接各個編譯單元的時候,它會把相同內容的內存只拷貝一份,比如上面的" 123456" 位於兩個編譯單元中的變量都是同樣的內容,那么在連接的時候它在內存中就只會存在一份了,如果你把上面的代碼改成下面的樣子,你馬上就可以拆穿編譯器的謊言:
test1.cpp:
#include " test1.h"
void fun1()
{
g_str[0] = ' ' a' '
cout < < g_str < < endl
}
test2.cpp
#include " test1.h"
void fun2()
{
cout < < g_str < < endl
}
void main()
{
fun1() // a23456
fun2() // 123456
}
這個時候你在跟蹤代碼時,就會發現兩個編譯單元中的g_str地址並不相同,因為你在一處修改了它,所以編譯器被強行的恢復內存的原貌,在內存中存在了兩份拷貝給兩個模塊中的變量使用。
正是因為static有以上的特性,所以一般定義static全局變量時,都把它放在原文件中而不是頭文件,這樣就不會給其他模塊造成不必要的信息污染,同樣記住這個原則吧!
3 const修飾的全局常量
const修飾的全局常量用途很廣,比如軟件中的錯誤信息字符串都是用全局常量來定義的。
const修飾的全局常量據有跟static相同的特性,即它們只能作用於本編譯模塊中,
但是const可以與extern連用來聲明該常量可以作用於其他編譯模塊中
如
extern const char g_str[]
然后在原文件中別忘了定義:
const char g_str[] = " 123456"
所以當const單獨使用時它就與static相同,而當與extern一起合作的時候,它的特性就跟extern的一樣了!所以對const我沒有什么可以過多的描述,我只是想提醒你,const char g_str = " 123456" 與 const char g_str[] = " 123465" 是不同的, 前面那個const 修飾的是char 而不是g_str 它的g_str並不是常量,它被看做是一個定義了的全局變量(可以被其他編譯單元使用),所以如果你像讓char g_str遵守const的全局常量的規則,最好這么定義const char const g_str=" 123456" .
================================================================================================
1. const char* Buffer = "Hello";
這里定義了一個指針,所指向的內容是不可以修改的,這個指針是 Buffer,它占據着sizeof(char*)大小的空間,它指向處於常量區的一段內存, 里面存儲着'H' 'e' 'l' 'l' 'o' '\0'這些東西。(把這個叫做"第一種情況")
2. const char Buffer [] Buffer = "Hello";
這里定義了一個字符數組,有6個元素,分別是'H' 'e' 'l' 'l' 'o' '\0', 占據着 6 * sizeof(char) 大小的空間,數組的名字叫做 Buffer,使用Buffer的時候,就相當於一個指向元素 'H' 的 char* 的指針,但是,Buffer並不是一個指針,沒有占據空間,它僅僅代表着這個數組的起始位置。
3. static const char* Buffer = "Hello";
這里跟第一種情況相仿,但是因為 static 的存在,這個指針具有“文件作用域”, 就是說,僅僅在包含它的那個編譯單元(".cpp文件")里面是可見的,記住這一點, 它很重要,一會會再次提到的。
4. const char* const Buffer = "Hello";
這里與第一種情況也很相仿,區別是,這個指針本身是常量,就是說,指針所占據的空間(注意不是它指向的空間),是不可修改的,而第一種情況可以,所以,如果在某個包含了這個頭文件的cpp文件中,寫下 C/C++ code
Buffer = "another Hello";
對於第一種情況是可以的,但在這里就會報錯,說你企圖修改常量,gcc 報錯說: main.cpp|12|error: assignment of read-only variable `Buffer'
綜上所述,這四個語句,按照順序,分別定義了:
1、一個指向 char 的指針,其指向的內容是不可以修改的,
2、一個 char 數組,數組的元素是不可以修改的,Buffer是一個表示數組起始位置的符號,
3、一個具有“文件作用域”的指向 char 的指針,其指向的內容是不可修改的,
4、一個指向 char 的指針,其指向的內容是不可以修改的,該指針也不可以再指向別的位置。
現在說說為什么第一種情況會產生"multiple definition of `Buffer'"的問題:
首先,請注意,只有編譯單元(.cpp文件)會被編譯,而頭文件不會, 頭文件起作用的方式就是向.cpp文件中添加將要被編譯的代碼段, 所以,如果定義放在頭文件中,又被不止一個編譯單元包含了, 顯然要產生“多次定義”的問題,這就是第一種情況導致鏈接錯誤的原因。 其余三個情況,沒有出現鏈接錯誤的原因分兩種情況:
1、static const char* Buffer = "Hello"; 這一行中的 static 告訴編譯器,(const char* 類型的)變量 Buffer 具有“文件作用域”, 所以,每一個被產生出來的 Buffer 都只在產生它的那個編譯單元中可見,所以沒有導致鏈接錯誤。
2、絕對常量 a、const char Buffer [] Buffer = "Hello";
b 、const char* const Buffer = "Hello"; 這兩行也都產生了相應的實體:
a 中產生的是具有 6 個元素的 char 數組,數組的名字僅僅是一個符號,不可能再賦予別的意義,
b中產生的是一個指向 const char 的指針,該指針被指定為“常指針”,不可以再指向別處,
這兩種情況下,產生出來的所有內容都是不可變的,所以,編譯器知道, 無論是 Buffer 還是使用 Buffer 訪問到的內容,在任何情況下都是相同的, 於是,編譯器就偷偷的讓它們都具有“文件作用域”了,這就是為什么沒有導致錯誤的原因。
如果把 a 改成: char Buffer [] Buffer = "Hello"; 同樣會導致鏈接錯誤。 這個機制應該是從 C 語言繼承過來的,它同時帶來了一個漏洞, 如果在兩個頭文件里,都有通過“絕對常量”方式得到“文件作用域”的對象, 就留下了隱患,只要沒有任何一個編譯單元同時包含了這兩個頭文件, 就不會導致重定義的鏈接錯誤,但給系統留下了難以察覺的隱患
