為什么要說這個簡單的問題?
眾所周知,在Windows下文本文件的換行符是CRLF,占兩個字節。在Unix下是LF,占一個字節。(還有奇葩的Mac是CR)。但是C語言中直接printf一個 ‘\n’,在Windows下就是CRLF兩個字符,然后getchar讀入,又成了’\n’這一個字符。這不是有點奇怪嗎?大多腳本語言還有Java中,‘\n’就是LF一個字節,ASCII碼是10。
先普及一個歷史故事
計算機還沒有出現之前,有一種叫做電傳打字機(Teletype Model 33)的玩意,每秒鍾可以打10個字符。但是它有一個問題,就是打完一行換行的時候,要用去0.2秒,正好可以打兩個字符。要是在這0.2秒里面,又有新的字符傳過來,那么這個字符將丟失。
於是,研制人員想了個辦法解決這個問題,就是在每行后面加兩個表示結束的字符。一個叫做“回車”,告訴打字機把打印頭定位在左邊界;另一個叫做“換行”,告訴打字機把紙向下移一行。
這就是“換行”和“回車”的來歷,從它們的英語名字上也可以看出一二。
后來,計算機發明了,這兩個概念也就被般到了計算機上。那時,存儲器很貴,一些科學家認為在每行結尾加兩個字符太浪費了,加一個就可以。於是,就出現了分歧。Unix 系統里,每行結尾只有“<換行>”,即“\n”;Windows系統里面,每行結尾是“<回車><換行>”,即“ \r\n”;Mac系統里,每行結尾是“<回車>”。一個直接后果是,Unix/Mac系統下的文件在Windows里打開的話,所有文字會變成一行;而Windows里的文件在Unix/Mac下打開的話,在每行的結尾可能會多出一個^M符號。
C語言測試代碼
在Windows下運行下面的代碼:
#define _CRT_SECURE_NO_WARNINGS #include <stdio.h> int main() { freopen("123456.txt", "w", stdout); char* str = "abc\n"; printf(str); return 0; }
“123456.txt”這一文件中就會有5個字節:‘a’ ‘b’ ‘c’ ‘CR’ ‘LF’。
但是如果把代碼改成這樣:
#define _CRT_SECURE_NO_WARNINGS #include <stdio.h> int main() { freopen("123456.txt", "wb", stdout); char* str = "abc\n"; printf(str); return 0; }
就只有4個字節了:‘a’ ‘b’ ‘c’ ‘LF’。
原因往往都是最簡單的
標准C語言的文本流提供系統無關抽象層。
總結來說就是上面一句話。\n 在文本模式下是邏輯新行符,讀寫時可根據平台和物理存儲之間進行轉換,我們平時用標准C的輸入輸出時完全不用關注這一點,但是如果我們繞過標准輸入輸出直接調用windows中coredll.lib進行控制台輸入輸出時就必須面對這一現實。
個人觀點
標准問題往往都是無休止的爭論,CRLF的爭論也一直沒有停止過。CRLF與歷史更加統一,而LF更加簡潔,並沒有嚴格的孰優孰劣之分。