回車和換行 詳解


來自:http://blog.163.com/bluesky_07_06_1/blog/static/164440083201072732718589/

----------------------------------------------------------------------------------------------------

1.回車和換行

關於“回車”(carriage return)\r和“換行”(line feed)\n這兩個概念的來歷和區別。
在計算機還沒有出現之前,有一種叫做電傳打字機(Teletype Model 33)的玩意,每秒鍾可以打10個字符。但是它有一個問題,就是打完一行換行的時候,要用去0.2秒,正好可以打兩個字符。要是在這0.2秒里面,又有新的字符傳過來,那么這個字符將丟失。
於是,研制人員想了個辦法解決這個問題,就是在每行后面加兩個表示結束的字符。一個叫做“回車”,告訴打字機把打印頭定位在左邊界;另一個叫做“換行”,告訴打字機把紙向下移一行。
這就是“換行”和“回車”的來歷,從它們的英語名字上也可以看出一二。

后來,計算機發明了,這兩個概念也就被般到了計算機上。那時,存儲器很貴,一些科學家認為在每行結尾加兩個字符太浪費了,加一個就可以。於是,就出現了分歧。

 

Unix系統里,每行結尾只有“<換行>”,即“\n”;Windows系統里面,每行結尾是“<回車 ><換行>”,即“\r\n”;Mac系統里,每行結尾是“<回車>”。一個直接后果是,Unix/Mac系統下的文件在Windows里打開的話,所有文字會變成一行;而Windows里的文件在Unix/Mac下打開的話,在每行的結尾可能會多出一個^M符號。

 

2.細查回車和換行

記:在自己的實驗中,需要把一個數據集(文本文件)轉換成另一種格式(文本文件)。轉換中,讀取一行至結尾,沒有理會最后的回車換行符,直接拋棄處理。在新格式的文本中,寫一行后通過fprintf(fp,"A%d: \tcontinuous. |type: A\n",i);中的\n作為換行。生成格式看上去和要求的一模一樣,但在處理程序調用新格式中的數據時,在這個換行處出了問題。getc(fp)到換行處,得到的是ascii碼值為10的LF。根據我的處理程序要求,此處的換行應該能夠直接跳過去。那么,到底是文本中換行符出了問題呢,還是我的程序處理出了問題?其實就是因為在回車換行符的認識上出了問題。

一、回車,換行

ASCII表中有對應的值。

ASCII值

字符

控制字符

010

line feed

LF

013

carriage return

CR

{feed:把紙放進打印機;給裝置提供數據資料。流入,喂養}

{carriage:在打印機上在下一頁進紙前作准備的機械;打字機的進紙處;馬車;運輸}

C語言中,它們有對應的轉義字符表示。page48@[1]

字符形式

含義

ASCII代碼

\n

換行,將當前位置移到下一行開頭

10

\r

回車,將當前位置移到本行開頭

13

在文本文件中\n和\r顯示的效果有一些不同,在windows的notepad中\r在顯示中沒有作用,在editplus和notepad+ +中顯示有換行的效果;\n都顯示有換行的效果;在linux下的VI下看到的效果是:\r顯示為^W,\n沒有對應顯示字符。看到這里,很多人還是會雲里霧里,我也是^_^.引用別人的一篇關於回車和換行區別的文章,相信很多朋友就明白了,詳情參考[2],一針見血的文章讓我忍不住要留在自己文章的下面:-)
二、在我的程序中,需要的是每一行后面只有換行沒有回車。但是在我寫好的文件中莫名地出現了回車符。
 1 #include
 2 
 3 int main(int argc, char *argv[])
 4 {
 5 FILE *fp;
 6 if((fp=fopen("36TMpssm28.names","w"))==NULL)
 7 {
 8 printf("cannot open 36TMpssm28.names!");
 9 return -1;
10 }
11 fputs("+,-.\n\n",fp);
12 for(int i=1;i<=260;i++) 
13   fprintf(fp,"A%d: \tcontinuous. |type: A\n",i); fclose(fp); 
14 return 0; 
15 }  
這段程序寫出的36TMpssm28.names中每行的結尾處是\r\n兩個字符。為什么呢?原因是上面為寫文件打開的是文本文件方式,存在轉換的問題。在向計算機輸入文本文件時,將回車換行符轉換為一個換行符,在輸出時把換行符轉換成為回車和換行兩個字符。在用二進制文件時,不進行這種轉換,在內存中的數據形式與輸出到外部文件中的數據形式完全一致,一一對應。313@[1] 
結論: 1、回車和換行可分可合。在文件中合,在內存中分。 2、在文件讀寫時,文本文件方式有字符轉換發生;二進制文件方式完全一一對應,沒有字符轉換。
[1]譚浩強 C程序設計 第二版 清華大學出版社
[2]http://www.cppblog.com/gtwdaizi/articles/38229.html
ps:
 今天,我總算搞清楚“回車”(carriage return)和“換行”(line feed)這兩個概念的來歷和區別了。
在計算機還沒有出現之前,有一種叫做電傳打字機(Teletype Model 33)的玩意,每秒鍾可以打10個字符。但是它有一個問題,就是打完一行換行的時候,要用去0.2秒,正好可以打兩個字符。要是在這0.2秒里面,又有新的字符傳過來,那么這個字符將丟失。
於是,研制人員想了個辦法解決這個問題,就是在每行后面加兩個表示結束的字符。一個叫做“回車”,告訴打字機把打印頭定位在左邊界;另一個叫做“換行”,告訴打字機把紙向下移一行。
這就是“換行”和“回車”的來歷,從它們的英語名字上也可以看出一二。
后來,計算機發明了,這兩個概念也就被般到了計算機上。那時,存儲器很貴,一些科學家認為在每行結尾加兩個字符太浪費了,加一個就可以。於是,就出現了分歧。
Unix 系統里,每行結尾只有“<換行>”,即“\n”;Windows系統里面,每行結尾是“<回車><換行>”,即“ \n\r”;Mac系統里,每行結尾是“<回車>”。一個直接后果是,Unix/Mac系統下的文件在Windows里打開的話,所有文字會變成一行;而Windows里的文件在Unix/Mac下打開的話,在每行的結尾可能會多出一個^M符號。

c語言編程時(windows系統)

\r 就是return 回到 本行 行首 這就會把這一行以前的輸出 覆蓋掉

如:

int main() {

cout << "hahaha" << "\r" << "xixi" ;

}

最后只顯示 xixi 而 hahaha 背覆蓋了

\n 是回車+換行 把光標 先移到 行首 然后換到下一行 也就是 下一行的行首拉

int main() {

cout << "hahaha" << "\n" << "xixi" ;

}

 顯

hahaha

xixi

 

小總結:

1.  首先理解文本文件和二進制文件的區別。

2.  澄清一個在不同版本上的介紹回車換行符時對在windows上的誤導,回車換行符在內存中的順序是\r\n <回車><換行>

3.  向文件寫數據時把換行符轉換成\r\n, 在從文件中讀數據時把\r\n轉換成\r 可以很直接從UE中看到每一行的換行符有 0D 0A.

4.  通過函數fgetws()方式讀來的每一行數據已經把\r\n轉換成了\r, 讀入的字符是n-1需要注意一下。

5.  在文件的結尾處因為沒有回車換行了,但是文件的結尾沒有多余的字符標志,同樣按n-1個字符讀取的時候就出現了問題。導致少讀了一個字符。

 

 

補充一點文件知識:

這里指的文本是用於Windows系統中的擴展名為.txt的文件。

  Notepad(記事本)只支持四種格式:ANSI/Unicode/Unicode big endian/UFT-8,如何判斷與讀取這些不同格式的文本呢?

  首先,不同編碼的文本,是根據文本的前兩個字節來定義其編碼格式的。定義如下:

  ANSI:        無格式定義;

  Unicode:       前兩個字節為FFFE;

  Unicode big endian: 前兩字節為FEFF; 

  UTF-8:        前兩字節為EFBB;

ANSI:系統預設的標准文字儲存格式。ANSI是American National Standards Institute的縮寫。它成立於1918年,是一個自願性的組織,擁有超過1300個會員,包括所有大型的電腦公司。ANSI專為電腦工業建立標准,它是世界上相當重要的標准。

  Unicode:世界上所有主要指令文件的聯集,包括商業和個人電腦所使用的公用字集。當采用Unicode格式儲存文件時,可使用Unicode控制字符輔助說明語言的文字覆蓋范圍,如阿拉伯語、希伯來語。用戶在“記事本”中輸入含有Unicode字符的文字並儲存文件時,系統會提示你必須選取“另存為”中的Unicode編碼,這些字符才不會被遺失。需要提醒大家的是,部分 Windows 2000字型無法顯示所有的Unicode字符。如果發現文件中缺少了某些字符,只需將其變更為其它字型即可。

  Unicode big endian:在Big-endian處理器(如蘋果 Macintosh電腦)上建立的Unicode文件中的文字位元組(存放單位)排列順序,與在Intel處理器上建立的文件的文字位元組排列順序相反。最重要的位元組擁有最低的地址,且會先儲存文字中較大的一端。為使這類電腦的用戶能夠存取你的文件,可選擇Unicode big-endian格式。

UTF-8:UTF意為通用字集轉換格式(Universal Character Set Transformation Format),UTF-8是Unicode的8位元格式。如果使用只能在同類位元組內支持8個位元的重要資料一類的舊式傳輸媒體,可選擇UTF-8格式。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM