总的来说,R的运算速度不算快,不过类似并行运算之类的改进可以提高运算的性能。下面非常简要地介绍如何利用R语言进行并行运算
library(parallel)
cl.cores <- detectCores()
cl <- makeCluster(cl.cores)
detectCores( )检查当前电脑可用核数。
makeCluster(cl.cores)使用刚才检测的核并行运算。R-Doc里这样描述makeCluster函数:Creates a set of copies of R running in parallel and communicating over sockets. 即同时创建数个R进行并行运算。在该函数执行后就已经开始并行运算了,电脑可能会变卡一点。尤其在执行par开头的函数时。
在并行运算环境下,常用的一些计算方法如下:
1. clusterEvalQ(cl,expr)函数利用创建的cl执行expr
这里利用刚才创建的cl核并行运算expr。expr是执行命令的语句,不过如果命令太长的话,一般写到文件里比较好。比如把想执行的命令放在Rcode.r里:
clusterEvalQ(cl,source(file="Rcode.r"))
2.par开头的apply函数族。
这族函数和apply的用法基本一样,不过要多加一个参数cl。一般如果cl创建如上面cl <- makeCluster(cl.cores)的话,这个参数可以直接用作parApply(cl=cl,…)。当然Apply也可以是Sapply,Lapply等等。注意par后面的第一个字母是要大写的,而一般的apply函数族第一个字母不大写。另外要注意,即使构建了并行运算的核,不使用parApply()函数,而使用apply()函数的话,则仍然没有实现并行运算。换句话说,makeCluster只是创建了待用的核,而不是并行运算的环境。
最后,终止并行运算只需要一行命令
stopCluster(cl)
1 fun <- function(x){ 2 return (x+1); 3 } 4 5 system.time({ 6 res <- lapply(1:5000000, fun); 7 }); 8 9 user system elapsed 10 21.42 1.74 25.70 11
1 library(parallel) 2 #打开四核,具体核数根据机器的核数决定 3 cl <- makeCluster(getOption("cl.cores", 4)); 4 system.time({ 5 res <- parLapply(cl, 1:5000000, fun) 6 }); 7 user system elapsed 8 6.54 0.34 19.95 9 #关闭并行计算 10 stopCluster(cl);
1 2 mc <- getOption("mc.cores", 3) 3 system.time({ 4 res <- mclapply(1:5000000, fun, mc.cores = mc); 5 }); 6 user system elapsed 7 6.657 0.500 7.181 8 stopCluster(cl);