1. 前言
Linux內核空間與用戶空間的通信可通過"/proc"目錄的文件讀寫來實現,如果只是控制內核中的參數而不是傳輸較多數據的話,用“/proc”是很合適的。另外一種內核與用戶空間通信方式方式是使用內核設備的讀寫或IOCTL來實現,以后再介紹。
2. /proc概述
/proc目錄是系統模擬出來的一個文件系統,本身並不存在於磁盤上,其中的文件都表示內核參數的信息,這些信息分兩類,一類是可都可寫的,這類參數都在“/proc/sys”目錄下,另一類是只讀的,就是“/proc/sys”目錄之外的其他目錄和文件,當然這只是一種慣例,實際在其他目錄下建立可讀寫的/proc文件也是可以的。
操作/proc目錄不需要特殊工具,在用戶層看來就是一普通文件,在shell中用“cat”命令進行查看,用“echo”命令來寫文件信息。
Linux內核在2.4以后/proc目錄文件的建立已經變得很容易,以前版本都還需要構造文件操作結構來實現,現在只需要調用簡單函數就可以了。/proc文件通過是create_proc_entry()函數來建立,使用remove_proc_entry()函數來刪除,建立新目錄可以通過proc_mkdir()函數調用,這些函數在fs/proc/generic.c中定義,通常我們不必直接使用create_proc_entry()函數來建立,而是通過這個函數的包裹函數來實現。
3. 只讀/proc文件
內核編譯選項要設置CONFIG_PROC_FS。
3.1 建立/proc只讀項
只讀的/proc文件可以通過create_proc_read_entry()或create_proc_info_entry()函數來建立,在模塊初始化時調用,:
/* include/linux/proc_fs.h */
static inline struct proc_dir_entry *create_proc_read_entry(const char *name,
mode_t mode, struct proc_dir_entry *base,
read_proc_t *read_proc, void * data)
{
struct proc_dir_entry *res=create_proc_entry(name,mode,base);
if (res) {
res->read_proc=read_proc;
res->data=data;
}
return res;
}
該函數需要5個參數:
name:要建立的文件名
mode:文件模式
base:所在的目錄
read_proc:這是個函數指針,表示讀取文件內容的函數
data:傳遞給read_proc函數的用戶參數指針
name:要建立的文件名
mode:文件模式
base:所在的目錄
read_proc:這是個函數指針,表示讀取文件內容的函數
data:傳遞給read_proc函數的用戶參數指針
static inline struct proc_dir_entry *create_proc_info_entry(const char *name,
mode_t mode, struct proc_dir_entry *base, get_info_t *get_info)
{
struct proc_dir_entry *res=create_proc_entry(name,mode,base);
if (res) res->get_info=get_info;
return res;
}
mode_t mode, struct proc_dir_entry *base, get_info_t *get_info)
{
struct proc_dir_entry *res=create_proc_entry(name,mode,base);
if (res) res->get_info=get_info;
return res;
}
該函數需要4個參數:
name:要建立的文件名
mode:文件模式
base:所在的目錄
get_info:這是個函數指針,表示讀取文件內容的函數,這個函數比上面的read_proc函數少一個用戶輸入參數
對於base,內核已經預定義了一些目錄/proc/net, /procbus, /proc/fs, /proc/driver, 這些是在fs/proc/root.c中定義的:
struct proc_dir_entry *proc_net, *proc_bus, *proc_root_fs, *proc_root_driver;
3.2 刪除/proc只讀項
只讀的/proc文件可以通過remove_proc_entry()函數來建立,在模塊刪除時調用,該函數在fs/proc/generic.c中定義:
void remove_proc_entry(const char *name, struct proc_dir_entry *parent)
該函數需要2個參數:
name:要建立的文件名
parent:父目錄
name:要建立的文件名
parent:父目錄
3.3 網絡相關/proc的建立和刪除
對於網絡參數(/proc/net),內核更提供了proc_net_create()和proc_net_remove()包裹函數來建立和刪除/proc/net文件:
static inline struct proc_dir_entry *proc_net_create(const char *name,
mode_t mode, get_info_t *get_info)
{
return create_proc_info_entry(name,mode,proc_net,get_info);
}
mode_t mode, get_info_t *get_info)
{
return create_proc_info_entry(name,mode,proc_net,get_info);
}
static inline void proc_net_remove(const char *name)
{
remove_proc_entry(name,proc_net);
}
{
remove_proc_entry(name,proc_net);
}
proc_net就是已經預定義好的"/proc/net"目錄的指針,這樣在建立網絡部分的只讀文件時就直接調用這兩個函數就可以了。
3.4 舉例
net/ipv4/af_inet.c:
...
// 建立/proc/net/netstat文件
proc_net_create ("netstat", 0, netstat_get_info);
...
...
// 建立/proc/net/netstat文件
proc_net_create ("netstat", 0, netstat_get_info);
...
netstat_get_info()函數在net/ipv4/proc.c文件中定義,函數的參數格式是固定的:
//buffer是數據輸出的緩沖區,要輸出的數據都寫到這個緩沖區;
//start用來返回buffer中起始數據的位置;
//offset指定偏移start所指數據相對buffer起點的偏移,實際start是通過buffer和
//start用來返回buffer中起始數據的位置;
//offset指定偏移start所指數據相對buffer起點的偏移,實際start是通過buffer和
//offset計算出來的;
//length表示buffer的長度,是由內核自己分配的,編程時要檢查向緩沖區寫的數據長度
//length表示buffer的長度,是由內核自己分配的,編程時要檢查向緩沖區寫的數據長度
//是否超過length規定的限值。
int netstat_get_info(char *buffer, char **start, off_t offset, int length)
{
int len, i;
// len記錄寫入緩沖區的數據長度,所有數據長度都要累加
len = sprintf(buffer,
"TcpExt: SyncookiesSent SyncookiesRecv SyncookiesFailed"
" EmbryonicRsts PruneCalled RcvPruned OfoPruned"
" OutOfWindowIcmps LockDroppedIcmps ArpFilter"
" TW TWRecycled TWKilled"
" PAWSPassive PAWSActive PAWSEstab"
" DelayedACKs DelayedACKLocked DelayedACKLost"
" ListenOverflows ListenDrops"
" TCPPrequeued TCPDirectCopyFromBacklog"
" TCPDirectCopyFromPrequeue TCPPrequeueDropped"
" TCPHPHits TCPHPHitsToUser"
" TCPPureAcks TCPHPAcks"
" TCPRenoRecovery TCPSackRecovery"
" TCPSACKReneging"
" TCPFACKReorder TCPSACKReorder TCPRenoReorder TCPTSReorder"
" TCPFullUndo TCPPartialUndo TCPDSACKUndo TCPLossUndo"
" TCPLoss TCPLostRetransmit"
" TCPRenoFailures TCPSackFailures TCPLossFailures"
" TCPFastRetrans TCPForwardRetrans TCPSlowStartRetrans"
" TCPTimeouts"
" TCPRenoRecoveryFail TCPSackRecoveryFail"
" TCPSchedulerFailed TCPRcvCollapsed"
" TCPDSACKOldSent TCPDSACKOfoSent TCPDSACKRecv TCPDSACKOfoRecv"
" TCPAbortOnSyn TCPAbortOnData TCPAbortOnClose"
" TCPAbortOnMemory TCPAbortOnTimeout TCPAbortOnLinger"
" TCPAbortFailed TCPMemoryPressures/n"
"TcpExt:");
for (i=0; i<offsetof(struct linux_mib, __pad)/sizeof(unsigned long); i++)
len += sprintf(buffer+len, " %lu", fold_field((unsigned long*)net_statistics, sizeof(struct linux_mib), i));
{
int len, i;
// len記錄寫入緩沖區的數據長度,所有數據長度都要累加
len = sprintf(buffer,
"TcpExt: SyncookiesSent SyncookiesRecv SyncookiesFailed"
" EmbryonicRsts PruneCalled RcvPruned OfoPruned"
" OutOfWindowIcmps LockDroppedIcmps ArpFilter"
" TW TWRecycled TWKilled"
" PAWSPassive PAWSActive PAWSEstab"
" DelayedACKs DelayedACKLocked DelayedACKLost"
" ListenOverflows ListenDrops"
" TCPPrequeued TCPDirectCopyFromBacklog"
" TCPDirectCopyFromPrequeue TCPPrequeueDropped"
" TCPHPHits TCPHPHitsToUser"
" TCPPureAcks TCPHPAcks"
" TCPRenoRecovery TCPSackRecovery"
" TCPSACKReneging"
" TCPFACKReorder TCPSACKReorder TCPRenoReorder TCPTSReorder"
" TCPFullUndo TCPPartialUndo TCPDSACKUndo TCPLossUndo"
" TCPLoss TCPLostRetransmit"
" TCPRenoFailures TCPSackFailures TCPLossFailures"
" TCPFastRetrans TCPForwardRetrans TCPSlowStartRetrans"
" TCPTimeouts"
" TCPRenoRecoveryFail TCPSackRecoveryFail"
" TCPSchedulerFailed TCPRcvCollapsed"
" TCPDSACKOldSent TCPDSACKOfoSent TCPDSACKRecv TCPDSACKOfoRecv"
" TCPAbortOnSyn TCPAbortOnData TCPAbortOnClose"
" TCPAbortOnMemory TCPAbortOnTimeout TCPAbortOnLinger"
" TCPAbortFailed TCPMemoryPressures/n"
"TcpExt:");
for (i=0; i<offsetof(struct linux_mib, __pad)/sizeof(unsigned long); i++)
len += sprintf(buffer+len, " %lu", fold_field((unsigned long*)net_statistics, sizeof(struct linux_mib), i));
len += sprintf (buffer + len, "/n");
if (offset >= len)
{
*start = buffer;
return 0;
}
//計算數據起始指針
*start = buffer + offset;
len -= offset;
{
*start = buffer;
return 0;
}
//計算數據起始指針
*start = buffer + offset;
len -= offset;
// 檢查寫入的長度是否溢出
if (len > length)
len = length;
if (len < 0)
len = 0;
return len;
}
if (len > length)
len = length;
if (len < 0)
len = 0;
return len;
}
4. 可讀寫的/proc文件
要支持可讀寫的/proc,內核編譯選項要設置CONFIG_SYSCTL。
可讀寫/proc文件按慣例通常放在/proc/sys目錄下,這些文件對應的內核參數或者是全局變量,或者是動態分配的內存空間,不能是臨時變量。
4.1 建立函數
建立可讀寫的/proc文件使用register_sysctl_table()函數來登記,該函數在kernel/sysctl.c中定義,聲明如下:
struct ctl_table_header *register_sysctl_table(ctl_table * table, int insert_at_head);
該函數返回一個struct ctl_table_header結構的指針,在釋放時使用;
該函數第一個參數table是sysctl控制表,定義如下:
/* include/linux/sysctl.h */
typedef struct ctl_table ctl_table;
struct ctl_table
{
int ctl_name; /* 數值表示的該項的ID */
const char *procname; /* 名稱 */
void *data; /* 對於的內核參數 */
int maxlen; /* 該參數所占的存儲空間 */
mode_t mode; /* 權限模式:rwxrwxrwx */
ctl_table *child; /* 子目錄表 */
proc_handler *proc_handler; /* 讀寫數據處理的回調函數 */
ctl_handler *strategy; /* 讀/寫時的回調函數,是對數據的預處理,
該函數是在讀或寫操作之前執行,該函數返回值
<0表示出錯;==0表示正確,繼續讀或寫;>0表
示讀/寫操作已經在函數中完成,可以直接返回了*/
struct proc_dir_entry *de; /* /proc控制塊指針 */
void *extra1; /* 額外參數,常在設置數據范圍時用來表示最大最小值 */
void *extra2;
};
{
int ctl_name; /* 數值表示的該項的ID */
const char *procname; /* 名稱 */
void *data; /* 對於的內核參數 */
int maxlen; /* 該參數所占的存儲空間 */
mode_t mode; /* 權限模式:rwxrwxrwx */
ctl_table *child; /* 子目錄表 */
proc_handler *proc_handler; /* 讀寫數據處理的回調函數 */
ctl_handler *strategy; /* 讀/寫時的回調函數,是對數據的預處理,
該函數是在讀或寫操作之前執行,該函數返回值
<0表示出錯;==0表示正確,繼續讀或寫;>0表
示讀/寫操作已經在函數中完成,可以直接返回了*/
struct proc_dir_entry *de; /* /proc控制塊指針 */
void *extra1; /* 額外參數,常在設置數據范圍時用來表示最大最小值 */
void *extra2;
};
注意該結構中的第6個參數子目錄表,這使得該表成為樹型結構。
第二個參數表示鏈表的插入方式,是插入到鏈表頭還是鏈表尾;
由此可知重要的是struct ctl_table結構的填寫,而最重要的是結構項proc_handler,該函數處理數據的輸入和輸出,如果不是目錄而是文件,該項是不可或缺的。早期內核版本中這些都需要單獨編寫,現在2.4以后內核提供了一些函數可以完成大部分的數據輸入輸出功能:
// 處理字符串數據
extern int proc_dostring(ctl_table *, int, struct file *,
void *, size_t *);
// 處理整數向量
extern int proc_dointvec(ctl_table *, int, struct file *,
void *, size_t *);
// 處理整數向量,但init進程處理時稍有區別
extern int proc_dointvec_bset(ctl_table *, int, struct file *,
void *, size_t *);
// 處理最大最小值形式的整數向量
extern int proc_dointvec_minmax(ctl_table *, int, struct file *,
void *, size_t *);
// 處理最大最小值形式的無符合長整數向量
extern int proc_doulongvec_minmax(ctl_table *, int, struct file *,
void *, size_t *);
// 處理整數向量,但用戶數據作為秒數,轉化為jiffies值,常用於時間控制
extern int proc_dointvec_jiffies(ctl_table *, int, struct file *,
void *, size_t *);
// 處理無符合長整數向量,用戶數據作為為毫秒值,轉化為jiffies值,常用於時間控制
extern int proc_doulongvec_ms_jiffies_minmax(ctl_table *table, int,
struct file *, void *, size_t *);
extern int proc_dostring(ctl_table *, int, struct file *,
void *, size_t *);
// 處理整數向量
extern int proc_dointvec(ctl_table *, int, struct file *,
void *, size_t *);
// 處理整數向量,但init進程處理時稍有區別
extern int proc_dointvec_bset(ctl_table *, int, struct file *,
void *, size_t *);
// 處理最大最小值形式的整數向量
extern int proc_dointvec_minmax(ctl_table *, int, struct file *,
void *, size_t *);
// 處理最大最小值形式的無符合長整數向量
extern int proc_doulongvec_minmax(ctl_table *, int, struct file *,
void *, size_t *);
// 處理整數向量,但用戶數據作為秒數,轉化為jiffies值,常用於時間控制
extern int proc_dointvec_jiffies(ctl_table *, int, struct file *,
void *, size_t *);
// 處理無符合長整數向量,用戶數據作為為毫秒值,轉化為jiffies值,常用於時間控制
extern int proc_doulongvec_ms_jiffies_minmax(ctl_table *table, int,
struct file *, void *, size_t *);
舉例,以下代碼取自net/ipv4/netfilter/ip_conntrack_standalone.c:
static ctl_table ip_ct_sysctl_table[] = {
{NET_IPV4_NF_CONNTRACK_MAX, "ip_conntrack_max",
&ip_conntrack_max, sizeof(int), 0644, NULL,
&proc_dointvec},
{NET_IPV4_NF_CONNTRACK_BUCKETS, "ip_conntrack_buckets",
&ip_conntrack_htable_size, sizeof(unsigned int), 0444, NULL,
&proc_dointvec},
{NET_IPV4_NF_CONNTRACK_TCP_TIMEOUT_SYN_SENT, "ip_conntrack_tcp_timeout_syn_sent",
&ip_ct_tcp_timeout_syn_sent, sizeof(unsigned int), 0644, NULL,
&proc_dointvec_jiffies},
......
{0}
};
{NET_IPV4_NF_CONNTRACK_MAX, "ip_conntrack_max",
&ip_conntrack_max, sizeof(int), 0644, NULL,
&proc_dointvec},
{NET_IPV4_NF_CONNTRACK_BUCKETS, "ip_conntrack_buckets",
&ip_conntrack_htable_size, sizeof(unsigned int), 0444, NULL,
&proc_dointvec},
{NET_IPV4_NF_CONNTRACK_TCP_TIMEOUT_SYN_SENT, "ip_conntrack_tcp_timeout_syn_sent",
&ip_ct_tcp_timeout_syn_sent, sizeof(unsigned int), 0644, NULL,
&proc_dointvec_jiffies},
......
{0}
};
static ctl_table ip_ct_netfilter_table[] = {
{NET_IPV4_NETFILTER, "netfilter", NULL, 0, 0555, ip_ct_sysctl_table, 0, 0, 0, 0, 0},
{NET_IP_CONNTRACK_MAX, "ip_conntrack_max",
&ip_conntrack_max, sizeof(int), 0644, NULL,
&proc_dointvec},
{0}
};
static ctl_table ip_ct_ipv4_table[] = {
{NET_IPV4, "ipv4", NULL, 0, 0555, ip_ct_netfilter_table, 0, 0, 0, 0, 0},
{0}
};
{NET_IPV4, "ipv4", NULL, 0, 0555, ip_ct_netfilter_table, 0, 0, 0, 0, 0},
{0}
};
static ctl_table ip_ct_net_table[] = {
{CTL_NET, "net", NULL, 0, 0555, ip_ct_ipv4_table, 0, 0, 0, 0, 0},
{0}
};
{CTL_NET, "net", NULL, 0, 0555, ip_ct_ipv4_table, 0, 0, 0, 0, 0},
{0}
};
static int init_or_cleanup(int init)
{
...
ip_ct_sysctl_header = register_sysctl_table(ip_ct_net_table, 0);
...
}
{
...
ip_ct_sysctl_header = register_sysctl_table(ip_ct_net_table, 0);
...
}
有些/proc/sys的文件控制比較復雜,參數的輸入實際是一個觸發信息來執行一系列操作,這時這些缺省處理函數功能就不足了,就需要單獨編寫ctl_table結構中的proc_handle和strategy函數。如對於/proc/sys/net/ipv4/ip_forward文件,對應的內核參數是ipv4_devconf.forwarding,如果該值改變,會將所有網卡設備的forwarding屬性值進行改變,定義如下:
/* net/ipv4/sysctl_net_ipv4.c */
static
int ipv4_sysctl_forward(ctl_table *ctl, int write, struct file * filp,
void *buffer, size_t *lenp)
{
// 保持當前的forwarding值
int val = ipv4_devconf.forwarding;
int ret;
// 完成/proc/sys的讀寫操作,如果是寫操作,forwarding值已經改為新值
ret = proc_dointvec(ctl, write, filp, buffer, lenp);
int ipv4_sysctl_forward(ctl_table *ctl, int write, struct file * filp,
void *buffer, size_t *lenp)
{
// 保持當前的forwarding值
int val = ipv4_devconf.forwarding;
int ret;
// 完成/proc/sys的讀寫操作,如果是寫操作,forwarding值已經改為新值
ret = proc_dointvec(ctl, write, filp, buffer, lenp);
// 寫操作,forwarding值改變,用新的forwarding值修改所有網卡的forwarding屬性
if (write && ipv4_devconf.forwarding != val)
inet_forward_change(ipv4_devconf.forwarding);
if (write && ipv4_devconf.forwarding != val)
inet_forward_change(ipv4_devconf.forwarding);
return ret;
}
}
static int ipv4_sysctl_forward_strategy(ctl_table *table, int *name, int nlen,
void *oldval, size_t *oldlenp,
void *newval, size_t newlen,
void **context)
{
int new;
if (newlen != sizeof(int))
return -EINVAL;
if (get_user(new,(int *)newval))
return -EFAULT;
if (new != ipv4_devconf.forwarding)
inet_forward_change(new);
// 把forwarding值賦值為新值后應該可以返回>0的數的,現在不賦值只能返回0繼續了
// 不過該strategy函數好象不是必要的,上面的proc_handler函數已經可以處理了
return 0; /* caller does change again and handles handles oldval */
}
void *oldval, size_t *oldlenp,
void *newval, size_t newlen,
void **context)
{
int new;
if (newlen != sizeof(int))
return -EINVAL;
if (get_user(new,(int *)newval))
return -EFAULT;
if (new != ipv4_devconf.forwarding)
inet_forward_change(new);
// 把forwarding值賦值為新值后應該可以返回>0的數的,現在不賦值只能返回0繼續了
// 不過該strategy函數好象不是必要的,上面的proc_handler函數已經可以處理了
return 0; /* caller does change again and handles handles oldval */
}
ctl_table ipv4_table[] = {
......
{NET_IPV4_FORWARD, "ip_forward",
&ipv4_devconf.forwarding, sizeof(int), 0644, NULL,
&ipv4_sysctl_forward,&ipv4_sysctl_forward_strategy},
......
4.2 釋放函數
釋放可讀寫的/proc文件使用unregister_sysctl_table()函數,該函數在kernel/sysctl.c中定義,聲明如下:
void unregister_sysctl_table(struct ctl_table_header * header)
參數就是建立時的返回的struct ctl_table_header結構指針,通常在模塊釋放函數中調用。
5. 結論
內核中/proc編程現在已經很簡單,將/proc目錄作為單個的內核參數的控制是很合適的,但不適合大批量的數據傳輸。