Linux Namespaces機制——實現

本文轉載自查看原文 2012-05-03 14:40 10064 虛擬化技術

由於Linux內核提供了PID，IPC，NS等多個Namespace，一個進程可能屬於多個Namespace。為了task_struct的精簡，內核引入了struct nsproxy來統一管理進程所屬的Namespace，在task_struct中只需存一個指向struct nsproxy的指針就行了。struct nsproxy定義如下：

struct nsproxy {

atomic_t count;

struct uts_namespace *uts_ns;

struct ipc_namespace *ipc_ns;

struct mnt_namespace *mnt_ns;

struct pid_namespace *pid_ns;

struct net *net_ns;

};

從定義可以看出，nsproxy存儲了一組指向各個類型Namespace的指針，為進程訪問各個Namespace起了一個代理的作用。由於可能有多個進程所在的Namespace完全一樣，nsproxy可以在進程間共享，count字段負責記錄該結構的引用數。

系統預定義了一個init_nsproxy，用作默認的nsproxy。

struct nsproxy init_nsproxy = {

.count = ATOMIC_INIT(1),

.uts_ns = &init_uts_ns,

#if defined(CONFIG_POSIX_MQUEUE) || defined(CONFIG_SYSVIPC)

.ipc_ns = &init_ipc_ns,

#endif

.mnt_ns = NULL,

.pid_ns = &init_pid_ns,

#ifdef CONFIG_NET

.net_ns = &init_net,

#endif

};

其中除了mnt_ns外均指向系統默認的Namespace。

內核定義了一組函數來管理nsproxy：

task_nsproxy用於從task_struct指針在RCU保護下獲得其中的nsproxy指針。

put_nsproxy用於減少一個nsproxy的引用數。

get_nsproxy用於增加一個nsproxy的引用數。

create_nsproxy用於分配一個新的nsproxy結構。

下面我們來看系統在clone時的處理。系統調用clone是通過sys_clone實現的，而sys_clone又是通過內核函數do_fork實現的，而do_fork大部分工作又是在copy_process中做的。在copy_process中，有這樣的代碼：

if ((retval = copy_namespaces(clone_flags, p)))

goto bad_fork_cleanup_mm;

這里我們回過頭去看copy_namespaces的代碼

int copy_namespaces(unsigned long flags, struct task_struct *tsk)

{

struct nsproxy *old_ns = tsk->nsproxy;

struct nsproxy *new_ns;

int err = 0;

if (!old_ns)

return 0;

get_nsproxy(old_ns);

if (!(flags & (CLONE_NEWNS | CLONE_NEWUTS | CLONE_NEWIPC |

CLONE_NEWPID | CLONE_NEWNET)))

return 0;

if (!capable(CAP_SYS_ADMIN)) {

err = -EPERM;

goto out;

}

* CLONE_NEWIPC must detach from the undolist: after switching

* to a new ipc namespace, the semaphore arrays from the old

* namespace are unreachable. In clone parlance, CLONE_SYSVSEM

* means share undolist with parent, so we must forbid using

* it along with CLONE_NEWIPC.

if ((flags & CLONE_NEWIPC) && (flags & CLONE_SYSVSEM)) {

err = -EINVAL;

goto out;

}

new_ns = create_new_namespaces(flags, tsk, tsk->fs);

if (IS_ERR(new_ns)) {

err = PTR_ERR(new_ns);

goto out;

}

tsk->nsproxy = new_ns;

out:

put_nsproxy(old_ns);

return err;

}

該函數首先檢查flags，如果沒有指定任何一個需要新建Namespace的flag，直接返回0。否則，做相應的權能檢查，然后調用create_new_namespaces為進程創建新的Namespace。

我們再來看create_new_namespaces的代碼

static struct nsproxy *create_new_namespaces(unsigned long flags,

struct task_struct *tsk, struct fs_struct *new_fs)

{

struct nsproxy *new_nsp;

int err;

new_nsp = create_nsproxy();

if (!new_nsp)

return ERR_PTR(-ENOMEM);

new_nsp->mnt_ns = copy_mnt_ns(flags, tsk->nsproxy->mnt_ns, new_fs);

if (IS_ERR(new_nsp->mnt_ns)) {

err = PTR_ERR(new_nsp->mnt_ns);

goto out_ns;

}

new_nsp->uts_ns = copy_utsname(flags, tsk->nsproxy->uts_ns);

if (IS_ERR(new_nsp->uts_ns)) {

err = PTR_ERR(new_nsp->uts_ns);

goto out_uts;

}

new_nsp->ipc_ns = copy_ipcs(flags, tsk->nsproxy->ipc_ns);

if (IS_ERR(new_nsp->ipc_ns)) {

err = PTR_ERR(new_nsp->ipc_ns);

goto out_ipc;

}

new_nsp->pid_ns = copy_pid_ns(flags, task_active_pid_ns(tsk));

if (IS_ERR(new_nsp->pid_ns)) {

err = PTR_ERR(new_nsp->pid_ns);

goto out_pid;

}

new_nsp->net_ns = copy_net_ns(flags, tsk->nsproxy->net_ns);

if (IS_ERR(new_nsp->net_ns)) {

err = PTR_ERR(new_nsp->net_ns);

goto out_net;

}

return new_nsp;

out_net:

if (new_nsp->pid_ns)

put_pid_ns(new_nsp->pid_ns);

out_pid:

if (new_nsp->ipc_ns)

put_ipc_ns(new_nsp->ipc_ns);

out_ipc:

if (new_nsp->uts_ns)

put_uts_ns(new_nsp->uts_ns);

out_uts:

if (new_nsp->mnt_ns)

put_mnt_ns(new_nsp->mnt_ns);

out_ns:

kmem_cache_free(nsproxy_cachep, new_nsp);

return ERR_PTR(err);

}
該函數首先為進程分配一個新的nsproxy（因為有新的Namespace創建），然后調用各個Namespace相關的函數來為進程一一創建新的Namespace（如果flags指定了的話）。具體的各個Namespace相關的創建函數比較復雜，與各自實現相關，就不在這里分析了。

我們再回到copy_process中，有以下代碼：

if (pid != &init_struct_pid) {

retval = -ENOMEM;

pid = alloc_pid(p->nsproxy->pid_ns);

if (!pid)

goto bad_fork_cleanup_io;

if (clone_flags & CLONE_NEWPID) {

retval = pid_ns_prepare_proc(p->nsproxy->pid_ns);

if (retval < 0)

goto bad_fork_free_pid;

}

由於從do_fork中調用copy_process時，pid參數是NULL，所以這里肯定滿足第一個if條件。在if內，首先為進程在其所在的Namespace分配pid，然后判斷clone時是否set了CLONE_NEWPID，如果設定了就做進一步的處理。這兩個函數都是pid Namespace相關的代碼，這里就不去分析了。

然后有以下代碼：

if (current->nsproxy != p->nsproxy) {

retval = ns_cgroup_clone(p, pid);

if (retval)

goto bad_fork_free_pid;

}

由於我們分析的是設定了clone相關flags的情況，那這個if條件肯定滿足。在if里面，調用了ns_cgroup_clone，即為不同nsproxy新建了一個cgroup（關於cgroups的分析可以參加本博客前面的文章：http://www.cnblogs.com/lisperl/archive/2012/04/26/2471776.html）。這里就和之前關於cgroups ns子系統的分析關聯起來了，內核這里實際上是利用cgroups ns子系統對進程做了一個自動分類，相同nsproxy（即所有Namespace都相同的進程）的進程在一個cgroup，一旦通過clone創建新的Namespace，就會在當前cgroup下創建一個新的cgroup。這樣以來，通過cgroup文件系統，在掛載ns 子系統的目錄下，我們就可以清楚地看出Namespace的層次關系。

大家看到這里是不是會有疑問，使用clone相應flags創建新的Namespace是不是必須要cgroups ns子系統的支持？作者可以負責任地告訴你：不需要。

在nsproxy.h中有以下代碼：

#ifdef CONFIG_CGROUP_NS
int ns_cgroup_clone(struct task_struct *tsk, struct pid *pid);
#else
static inline int ns_cgroup_clone(struct task_struct *tsk, struct pid *pid)
{
return 0;
}
#endif

即在沒有cgroups的情況下，ns_cgroup_clone實現是不同的。

作者曰：這里只是對Linux Namespaces機制的實現做了一個大體的上分析，具體到各個Namespace的實現並沒有去講，因為非常復雜，尤其是Network Namespace。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 linux下epoll實現機制 Linux系統調用的實現機制分析 Linux分頁機制之分頁機制的實現詳解--Linux內存管理(八) linux機制 Linux內核學習筆記七——內核同步機制和實現方式 linux內核剖析（六）Linux系統調用詳解（實現機制分析） linux poll機制分析(二) linux各種IPC機制 Linux RCU 機制詳解 Linux cpufreq 機制了解