1. 系統調用IO(無緩沖IO)
系統調用
在Linux中一切皆文件,文件操作在Linux中是十分重要的。為此, Linux內核提供了一組用戶進程與內核進行交互的接口用於對文件和設備進行訪問控制,這些接口被稱為系統調用。
系統調用對於應用程序最大的作用在於:
- 以統一的形式,為應用程序提供了一組文件訪問的抽象接口,應用程序不需要關心文件的具體類型,也不用關心其內部實現細節。
常用系統調用IO函數
常用的系統調用IO函數有5個:open、close、read、write、ioctl,此外還有個非系統調用IO函數lseek,系統調用IO都是不帶緩沖的IO。
open
open用於創建一個新文件或打開一個已有文件,返回一個非負的文件描述符fd。
0、1、2為系統預定義的文件描述符,分別代表STDIN_FILENO、STDOUT_FILENO、STDERR_FILENO。
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
//成功返回文件描述符,失敗返回-1
int open(const char *pathname, int flags, ... /* mode_t mode */);
flags參數一般在O_RDONLY、O_WRONLY和O_RDWR中選擇指定一個,還可以根據需要或上以下常值:
- O_CREAT:若文件不存在則創建它,此時需要第三個參數mode,mode可設的值及含義如下圖所示。
- O_APPEND:每次寫時都追加到文件的尾端
- O_NONBLOCK:如果pathname對應的是FIFO、塊特殊文件或字符特殊文件,則該命令使open操作及后續IO操作設定為非阻塞模式
close
close用於關閉一個已打開文件。
#include <unistd.h>
//成功返回0,失敗返回-1
int close(int fd);
進程終止時,內核會自動關閉它所有的打開文件,應用程序經常利用這一點而不顯式關閉文件。
read
read用於從打開文件中讀數據。
#include <unistd.h>
//成功返回讀到的字節數;若讀到文件尾則返回0;失敗返回-1
ssize_t read(int fd, void *buf, size_t count);
read操作從文件的當前偏移量處開始,在成功返回之前,文件偏移量將增加實際讀到的字節數。
有幾種情況可能導致實際讀到的字節數少於要求讀的字節數:
- 讀普通文件時,在讀到要求字節數之前就到達了文件尾。例如,離文件尾還有30字節,要求讀100字節,則read返回30,下次在調用read時會直接返回0
- 從網絡讀時,網絡中的緩沖機制可能造成返回值少於要求讀的字節數,解決辦法在網絡編程專題中再講
write
write用於向文件寫入數據。
#include <unistd.h>
//成功返回寫入的字節數,失敗返回-1
ssize_t write(int fd, const void *buf, size_t count);
- write的返回值通常與參數count相同,否則表示出錯。
- 對於普通文件,write操作從文件的當前偏移量處開始
- 若指定了O_APPEND選項,則每次寫之前先將文件偏移量設置到文件尾
- 成功寫入之后,文件偏移量增加實際寫的字節數。
lseek
lseek用於設置打開文件的偏移量。
#include <sys/types.h>
#include <unistd.h>
//成功返回新的文件偏移量,失敗返回-1
off_t lseek(int fd, off_t offset, int whence);
對offset的解釋取決於whence的值:
- 若whence == SEEK_SET,則將文件偏移量設為距文件開頭offset個字節,此時offset必須為非負
- 若whence == SEEK_CUR,則將文件偏移量設為當前值 + offset,此時offset可正可負
- 若whence == SEEK_END,則將文件偏移量設為文件長度 + offset,此時offset可正可負
注意:
- lseek僅將新的文件偏移量記錄在內核中,它並不引起任何IO操作,因此它不是系統調用IO,但該偏移量會用於下一次read/write操作
- 管道、FIFO和套接字不支持設置文件偏移量,不能對其調用lseek
ioctl
ioctl提供了一個用於控制設備及其描述符行為和配置底層服務的接口。
#include <sys/ioctl.h>
//出錯返回-1,成功返回其他值
int ioctl(int fd, int cmd, ...);
- ioctl對描述符fd引用的對象執行由cmd參數指定的操作
- 每個設備驅動程序都可以定義它自己專用的一組ioctl命令
2. 標准IO(帶緩沖IO)
概述
標准IO其實就是stdio.h頭文件中提供的IO接口,只不過在特定的系統中可能有特定的內部實現。
和系統調用IO類似,標准IO也預定義了三個文件指針stdin、stdout、stderr,分別對應標准輸入、標准輸出、標准錯誤。
緩沖與沖洗
標准IO是帶緩沖的IO,一共有3種類型的緩沖:
- 全緩沖:緩沖區填滿后才進行IO操作,如磁盤文件
- 行緩沖:遇到換行符才進行IO操作,如命令行終端(stdin和stdout)
- 無緩沖:不經過緩沖,立即進行IO操作,如stderr
一般情況下,系統默認使用下列類型的緩沖:
- stderr是無緩沖的
- 指向終端設備的流是行緩沖的,否則是全緩沖的
對於一個打開的流,可以調用setbuf或setvbuf改變其緩沖類型.
//成功返回0,失敗返回非0
void setbuf(FILE *fp, char *buf);
int setvbuf(FILE *fp, char *buf, int mode, size_t size);
- setbuf用於關閉或打開fp的緩沖機制,若打開,則buf必須指向一個長度為BUFSIZ的緩沖區;若關閉,則buf設為NULL
- setvbuf通過參數mode可精確設置緩沖類型,
_IOLBF==全緩沖, _IOLBF==行緩沖,_IONBF==無緩沖
- 當setvbuf設置為帶緩沖時,buf必須指向一個長度為size的緩沖區,推薦將buf設為NULL讓系統自動分配緩沖區長度,此時size可設為0
對於全緩沖和行緩沖,不管是否滿足IO條件,都可以使用fflush函數強制進行IO操作,我們稱其為沖洗。
//成功返回0,失敗返回EOF
//若fp為NULL,將導致沖洗所有輸出流
int fflush(FILE *fp);
常用標准IO函數
常用的標准IO函數分為以下幾大類:
- 打開和關閉流
- 定位流
- 讀寫流,包括文本IO、二進制IO和格式化IO三種
打開和關閉流
//成功返回文件指針,失敗返回NULL
FILE *fopen(const char *pathname, const char *type);
//成功返回0,失敗返回EOF
void fclose(FILE *fp);
fopen打開由pathname指定的文件,type指定讀寫方式:
- 使用字符b作為type的一部分,使得標准IO可以區分文本文件和二進制文件
- Linux內核不區分文本和二進制文件,因此在Linux系統下使用字符b實際上沒有作用,只讀、只寫、讀寫分別指定為"r"、"w"、"rw"即可
- Windows中,文本文件只讀、只寫、讀寫分別為"r"、"w"、"rw",二進制文件只讀、只寫、讀寫分別為"rb"、"wb"、"rb+"
- 只讀方式要求文件必須存在,只寫或讀寫方式會在文件不存在時創建
fclose關閉文件,關閉前緩沖區中的輸出數據會被沖洗,輸出數據則丟棄。
定位流
流的定位類似於系統調用IO中獲取當前文件偏移量,ftell和fseek函數可用於定位流。
//成功返當前文件位置,出錯返回-1
int ftell(FILE *fp);
//成功返回0,失敗返回-1
void fseek(FILE *fp, long offset, int whence);
offset和whence含義及可設的值與系統調用IO中的lseek相同,不再贅述,但如果是在非Linux系統,則有一點需要注意:
- 對於二進制文件,文件位置嚴格按照字節偏移量計算,但對於文本文件可能並非如此
- 定位文本文件時,whence必須是SEEK_SET,且offset只能是0或ftell返回值
文本IO
文本IO有兩種:
- 每次讀寫一個字符
- 每次讀寫一行字符串
/*
* 每次讀寫一個字符
*/
//成功返回下一個字符,到達文件尾或失敗返回EOF
int getc(FILE *fp); //可能實現為宏,因此不允許將其地址作為參數傳給另一個函數,因為宏沒有地址
int fgetc(FILE *fp); //一定是函數
int getchar(); //等價於getc(stdin)
//成功返回c,失敗返回EOF
int putc(int c, FILE *fp); //可能實現為宏,因此不允許將其地址作為參數傳給另一個函數,因為宏沒有地址
int fputc(int c, FILE *fp); //一定是函數
int putchar(int c); //等價於putc(c, stdout)
/*
* 每次讀寫一行字符串
*/
//成功返回str,到達文件尾或失敗返回EOF
char *fgets(char *str, int n, FILE *fp); //從fp讀取直到換行符(換行符也讀入),str必須以'\0'結尾,故包括換行符在內不能超過n-1個字符
//成功返回非負值,失敗返回EOF
int fputs(const char *str, FILE *fp); //將字符串str輸出到fp,str只要求以'\0'結尾,不一定含有換行符
二進制IO
二進制IO就是fread和fwrite。
//返回讀或寫的對象數
size_t fread(void *ptr, size_t size, size_t nobj, FILE *fp);
size_t fwrite(const void *ptr, size_t size, size_t nobj, FILE *fp);
二進制IO常見的用法包括:
- 讀寫一個二進制數組
- 讀寫一個結構
上述兩種用法結合起來,還可以實現讀寫一個結構數組。
struct Item
{
int id;
char text[100];
};
int data[10];
struct Item item;
struct Item item[10];
//讀寫二進制數組
fread(&data[2], sizeof(int), 4, fp);
fwrite(&data[2], sizeof(int), 4, fp);
//讀寫結構
fread(&item, sizeof(item), 1, fp);
fwrite(&item, sizeof(item), 1, fp);
//讀寫結構數組
fread(&item, sizeof(item[0]), sizeof(item) / sizeof(item[0]), fp);
fwrite(&item, sizeof(item[0]), sizeof(item) / sizeof(item[0]), fp);
格式化IO
格式化IO包括輸入函數族和輸出函數族,我們剔除了不常用的與文件指針fp、文件描述符fd相關的API,僅保留常用的3個輸出函數和2個輸入函數。
//成功返回輸出或存入buf的字符數(不含'\0'),失敗返回負值
int printf(const char *format, ...);
int sprintf(char *buf, const char *format, ...);
int snprintf(char *buf, size_t n, const char *format, ...);
- sprintf和snprintf會自動在buf末尾添加字符串結束符'\0',但該字符不包括在返回值中
- snprintf要求調用者保證緩沖區buf長度n足夠大
//成功返回輸入的字符數,到達文件尾或失敗返回EOF
int scanf(const char *format, ...);
int sscanf(const char *buf, const char *format, ...);
PS:sscanf在實際工程中有一個實用的小技巧:串口接收的一條報文,可以根據串口協議,使用sscanf提取各個字段,從而快速便捷的進行報文解析。