首先介紹一下“回車”(carriage return,’\r’)和“換行”(line feed,’\n’)這兩個概念的來歷和區別。在計算機還沒有出現之前,有一種叫做電傳打字機(Teletype Model 33)的玩意,每秒鍾可以打10個字符。但是它有一個問題,就是打完一行換行的時候,要用去0.2秒,正好可以打兩個字符。要是在這0.2秒里面,又有新的字符傳過來,那么這個字符將丟失。於是,研制人員想了個辦法解決這個問題,就是在每行后面加兩個表示結束的字符。一個叫做“回車”,告訴打字機把打印頭定位在左邊界;另一個叫做“換行”,告訴打字機把紙向下移一行。這就是“換行”和“回車”的來歷,從它們的英語名字上也可以看出一二。
后來,計算機發明了,這兩個概念也就被般到了計算機上。那時,存儲器很貴,一些科學家認為在每行結尾加兩個字符太浪費了,加一個就可以。於是,就出現了分歧:
- Unix 系統里,每行結尾只有“<換行>”,即“\n”;
- Windows系統里面,每行結尾是“<回車><換行>”,即“\r\n”;
- Mac系統里,每行結尾是“<回車>”,即“\r”。
一個直接后果是,Unix/Mac系統下的文件在Windows里打開的話,所有文字會變成一行;而Windows里的文件在Unix/Mac下打開的話,在每行的結尾可能會多出一個^M符號。一些常見的轉義字符如下圖:
需要注意的是:在Windows系統中回車鍵被當做\r\n 的組合來使用,當我們從鍵盤輸入回車鍵時,Windows系統會把回車鍵當做\r\n 來處理,Unix系統只會當做\n 來處理,不管在什么系統中,都可以用\n來作為一行輸入結束的標記,只是在編程時我們需要注意,在Windows系統中我們會讀到\r 這個字符,我們必須把\r和正常輸入的字符區別開來。
Windows與Unix文件格式是不同的,問題一般就是出在\r\n問題上。回車(CR)和換行(LF)符都是用來表示“下一行”的。而標准沒有規定要使用哪一個。於是產生了三種不同的用法:
- windows采用回車+換行(CR+LG)表示下一行(亦即所謂的PC格式)
- UNIX采用換行符(LF)表示下一行
- MAC機采用回車符(CR)表示下一行
當在不同的系統間傳遞文件,就要涉及格式的轉換。
兩種文件格式之間的轉化:
1、 Unix -> Windows:'\n' -> '\r\n'
while ( (ch = fgetc(in)) != EOF )
{
if ( ch == '\n' )
putchar('\r');
putchar(ch);
}
只要在Unix文件中出現的'\n'的之前加入一個'\r'字符就可以了
2、Unix <- Windows:'\n' <- '\r\n'
從Windows到Unix的情況復雜點,不能只是把從文件中讀出的'\r'去掉就可以了。因為Windows文件中的文本行的末尾有時會內嵌一個回車符號,這種情況在擊打式打印機中出現。所以在轉換前要判斷'\r'是否和'\n'同時出現。如果同時出現,則去掉'\r',如果沒有同時出現,保留'\n'。
cr_flag = 0; /* No CR encountered yet */
while ( (ch = fgetc(in)) != EOF )
{
if ( cr_flag && ch != '\n' ) {
/* This CR did not preceed LF */
putchar('\r');
}
if ( !(cr_flag = (ch == '\r')) )
putchar(ch);
}