C語言中‘\n'為什么能表示CRLF兩個字節


為什么要說這個簡單的問題?

 

眾所周知,在Windows下文本文件的換行符是CRLF,占兩個字節。在Unix下是LF,占一個字節。(還有奇葩的Mac是CR)。但是C語言中直接printf一個 ‘\n’,在Windows下就是CRLF兩個字符,然后getchar讀入,又成了’\n’這一個字符。這不是有點奇怪嗎?大多腳本語言還有Java中,‘\n’就是LF一個字節,ASCII碼是10。

先普及一個歷史故事

    計算機還沒有出現之前,有一種叫做電傳打字機(Teletype Model 33)的玩意,每秒鍾可以打10個字符。但是它有一個問題,就是打完一行換行的時候,要用去0.2秒,正好可以打兩個字符。要是在這0.2秒里面,又有新的字符傳過來,那么這個字符將丟失。 
於是,研制人員想了個辦法解決這個問題,就是在每行后面加兩個表示結束的字符。一個叫做“回車”,告訴打字機把打印頭定位在左邊界;另一個叫做“換行”,告訴打字機把紙向下移一行。
這就是“換行”和“回車”的來歷,從它們的英語名字上也可以看出一二。
后來,計算機發明了,這兩個概念也就被般到了計算機上。那時,存儲器很貴,一些科學家認為在每行結尾加兩個字符太浪費了,加一個就可以。於是,就出現了分歧。Unix 系統里,每行結尾只有“<換行>”,即“\n”;Windows系統里面,每行結尾是“<回車><換行>”,即“ \r\n”;Mac系統里,每行結尾是“<回車>”。一個直接后果是,Unix/Mac系統下的文件在Windows里打開的話,所有文字會變成一行;而Windows里的文件在Unix/Mac下打開的話,在每行的結尾可能會多出一個^M符號。

C語言測試代碼

在Windows下運行下面的代碼:

#define _CRT_SECURE_NO_WARNINGS

#include <stdio.h>

int main()
{
    freopen("123456.txt", "w", stdout);
    char* str = "abc\n";
    printf(str);
    return 0;
}

“123456.txt”這一文件中就會有5個字節:‘a’ ‘b’ ‘c’ ‘CR’ ‘LF’。

 

但是如果把代碼改成這樣:

#define _CRT_SECURE_NO_WARNINGS

#include <stdio.h>

int main()
{
    freopen("123456.txt", "wb", stdout);
    char* str = "abc\n";
    printf(str);
    return 0;
}

就只有4個字節了:‘a’ ‘b’ ‘c’ ‘LF’。

原因往往都是最簡單的

標准C語言的文本流提供系統無關抽象層。

總結來說就是上面一句話。\n 在文本模式下是邏輯新行符,讀寫時可根據平台和物理存儲之間進行轉換,我們平時用標准C的輸入輸出時完全不用關注這一點,但是如果我們繞過標准輸入輸出直接調用windows中coredll.lib進行控制台輸入輸出時就必須面對這一現實。

個人觀點

標准問題往往都是無休止的爭論,CRLF的爭論也一直沒有停止過。CRLF與歷史更加統一,而LF更加簡潔,並沒有嚴格的孰優孰劣之分。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM