R語言常用數學函數
(2013-01-04 22:09:00)
語言的數學運算和一些簡單的函數整理如下:
向量可以進行那些常規的算術運算,不同長度的向量可以相加,這種情況下最短的向量將被循環使用。
改變編譯環境的語言(英語)
Sys.setenv(LANGUAGE="en")
> x <- 1:4
> a <- 10
> x * a
[1] 10 20 30 40
> x + a
[1] 11 12 13 14
> sum(x) #對x中的元素求和
[1] 10
> prod(x) #對x中的元素求連乘積
[1] 24
> prod(2:8) #8的階乘
[1] 40320
> prod(2:4) #4的階乘
[1] 24
> max(x) #x中元素的最大值
[1] 4
> min(x) #x中元素的最小值
[1] 1
> which.max(x) #返回x中最大元素的下標
[1] 4
> which.min(x) #返回x中最小元素的下標
[1] 1
> x <- 4:1 #對向量x重新賦值
> x
[1] 4 3 2 1
> which.min(x)
[1] 4
> which.max(x)
[1] 1
<%in% 包含於函數>
>x[x%in%c(2,3)]<-0
> x
[1] 1 0 0 4 ##把x中的2,3替換成0
> range(x) #與c(min(x), max(x))作用相同
[1] 1 4
> mean(x) #x中元素的均值
[1] 2.5
> median(x) #x中元素的中位數
[1] 2.5
> var(x) #x中元素的的方差(用n-1做分母)
[1] 1.666667
> x
[1] 4 3 2 1
> rev(x) #對x中的元素取逆序
[1] 1 2 3 4
> sort(x) #將x中的元素按升序排列;
[1] 1 2 3 4
> x
[1] 4 3 2 1
> cumsum(x) #求累積和,返回一個向量,它的第i個元素是從x[1]到x[i]的和
[1] 4 7 9 10
> cumsum(rev(x))
[1] 1 3 6 10
> y <- 11:14
> pmin(x,y) #返回一個向量,它的第i個元素是x[i], y[i], . . .中最小值
[1] 4 3 2 1
> x <- rev(x) #重新賦值
> pmin(x,y)
[1] 1 2 3 4
> pmax(x,y) #返回一個向量,它的每個元素是向量x和y在相應位置的元素的最大者
[1] 11 12 13 14
> cumprod(x) #求累積(從左向右)乘積
[1] 1 2 6 24
> cummin(x) #求累積最小值(從左向右)
[1] 1 1 1 1
> cummax(x) #求累積最大值(從左向右)
[1] 1 2 3 4
> match(x, y) #返回一個和x的長度相同的向量,表示x中與y中元素相同的元素在y中的位置(沒有則返回NA)
[1] NA NA NA NA
> y[c(2,4)] <- c(2,4)
> y
[1] 11 2 13 4
> match(x, y)
[1] NA 2 NA 4
>merge(x,y,by=c(" "))
合並兩個數據框想x,y 以兩個數據框有的共同的某列或者某行就行合並“by”
>split(x,f)
na.omit(x)函數忽略有缺失值(NA)的觀察數據(如果x是矩陣或數據框則忽略相應的行)
> na.omit(match(x,y))
[1] 2 4
attr(,"na.action")
[1] 1 3
attr(,"class")
[1] "omit"
> na.fail(match(x,y)) #na.fail(x) 如果x包含至少一個NA則返回一個錯誤消息
錯誤於na.fail.default(match(x,y)) : 對象里有遺漏值
which()函數返回一個包含x符合條件(當比較運算結果為真(TRUE)的下標的向量,在這個結果向量中數值i說明x[i] == a(這個函數的參數必須是邏輯型變量)
> which( x == 2)
[1] 2
> which( x <= 2)
[1] 1 2
求組合數
> choose(4,2)
[1] 6
> choose(3,1)
[1] 3
> choose(-3,1)
[1] -3
> choose(-4,2)
[1] 10
求排列組合數:
library(gregmisc)
> permutations(n = 4, r = 2)
[,1] [,2]
[1,] 1 2
[2,] 1 3
[3,] 1 4
[4,] 2 1
[5,] 2 3
[6,] 2 4
[7,] 3 1
[8,] 3 2
[9,] 3 4
[10,] 4 1
[11,] 4 2
[12,] 4 3
> combinations(n = 4, r = 2)
[,1] [,2]
[1,] 1 2
[2,] 1 3
[3,] 1 4
[4,] 2 3
[5,] 2 4
[6,] 3 4
> permutations(n = 4, r = 2)
[,1] [,2]
[1,] 1 2
[2,] 1 3
[3,] 1 4
[4,] 2 1
[5,] 2 3
[6,] 2 4
[7,] 3 1
[8,] 3 2
[9,] 3 4
[10,] 4 1
[11,] 4 2
[12,] 4 3
> combinations(n = 4, r = 2)
[,1] [,2]
[1,] 1 2
[2,] 1 3
[3,] 1 4
[4,] 2 3
[5,] 2 4
[6,] 3 4
還可以用函數combn()可以得到所有元素的組合
> y <- c(1:4, rep(4,1))
> y
[1] 1 2 3 4 4
> unique(y) #如果y是一個向量或者數據框,則返回一個類似的對象但是去掉所有重復的元素(對於重復的元素只取一個)
[1] 1 2 3 4
> table(y) #返回一個表格,給出y中重復元素的個數列表(尤其對於整數型或者因子型變量)
y
1 2 3 4
1 1 1 2
> subset(x, x>2) #返回x中的一個滿足特定條件...的子集
[1] 3 4
> sample(x, 2) #從x中無放回抽取size個樣本,選項replace= TRUE表示有放回的抽樣
[1] 1 2
> sample(x, 2, replace = TRUE) #有放回的抽樣
[1] 2 3
>union(x,y) 求兩個向量的並集
>intersect(x,y) 求兩個向量的交集
>setdiff(x=1:4, y=2:3) 求向量x和y中的不同元素(取x中的不同元素)
[1] 1 4
R中用來處理數據的函數太多了而不能全部列在這里。讀者可以找到所有的基本數學函數(log, exp, log10, log2, sin, cos, tan, asin, acos, atan, abs, sqrt,. . . ), 專業函數(gamma,digamma, beta, besselI, . . . ),同樣包括各種統計學中有用的函數。
format可以把數據轉換成科學計算法的形式。
> mm
[1] 300000
> format(mm,digits = 1,scientific = TRUE)
[1] "3e+05"
一、數據管理
vector:向量 numeric:數值型向量 logical:邏輯型向量 character;字符型向量 list:列表
data.frame:數據框 c:連接為向量或列表 length:求長度 subset:求子集 seq,from:to,sequence:等差序列
rep:重復 NA:缺失值 NULL:空對象 sort,order,unique,rev:排序 unlist:展平列表 attr,attributes:對象屬性
mode,typeof:對象存儲模式與類型 names:對象的名字屬性
二、字符串處理
character:字符型向量 nchar:字符數 substr:取子串 format,formatC:把對象用格式轉換為字符串 paste,strsplit:連接或拆分
charmatch,pmatch:字符串匹配 grep,sub,gsub:模式匹配與替換
三、復數
complex,Re,Im,Mod,Arg,Conj:復數函數
四、因子
factor:因子 codes:因子的編碼 levels:因子的各水平的名字 nlevels:因子的水平個數 cut:把數值型對象分區間轉換為因子
table:交叉頻數表 split:按因子分組 aggregate:計算各數據子集的概括統計量 tapply:對“不規則”數組應用函數
數學
一、計算
+, -, *, /, ^, %%, %/%:四則運算 ceiling,floor,round,signif,
1、round() #四舍五入
例:x <- c(3.1416, 15.377, 269.7)
round(x, 0) #保留整數位
round(x, 2) #保留兩位小數
round(x, -1) #保留到十位
2、signif() #取有效數字(跟學過的有效數字不是一個意思)
例:略
3、trunc() #取整
floor() #向下取整
ceiling() #向上取整
例:xx <- c(3.60, 12.47, -3.60, -12.47)
trunc(xx)
floor(xx)
ceiling(xx)
max,min,pmax,pmin:最大最小值
range:最大值和最小值 sum,prod:向量元素和,積 cumsum,cumprod,cummax,cummin:累加、累乘 sort:排序 approx和approx fun:插值 diff:差分 sign:符號函數
二、數學函數
abs,sqrt:絕對值,平方根 log, exp, log10, log2:對數與指數函數 sin,cos,tan,asin,acos,atan,atan2:三角函數
sinh,cosh,tanh,asinh,acosh,atanh:雙曲函數
beta,lbeta,gamma,lgamma,digamma,trigamma,tetragamma,pentagamma,choose ,lchoose:與貝塔函數、伽瑪函數、組合數有關的特殊函數
fft,mvfft,convolve:富利葉變換及卷積 polyroot:多項式求根 poly:正交多項式 spline,splinefun:樣條差值
besselI,besselK,besselJ,besselY,gammaCody:Bessel函數 deriv:簡單表達式的符號微分或算法微分
三、數組
array:建立數組 matrix:生成矩陣 data.matrix:把數據框轉換為數值型矩陣 lower.tri:矩陣的下三角部分 mat.or.vec:生成矩陣或向量 t:矩陣轉置
cbind:把列合並為矩陣 rbind:把行合並為矩陣 diag:矩陣對角元素向量或生成對角矩陣 aperm:數組轉置 nrow, ncol:計算數組的行數和列數 dim:對象的維向量
dimnames:對象的維名 row/colnames:行名或列名 %*%:矩陣乘法 crossprod:矩陣交叉乘積(內積) outer:數組外積 kronecker:數組的Kronecker積
apply:對數組的某些維應用函數 tapply:對“不規則”數組應用函數 sweep:計算數組的概括統計量 aggregate:計算數據子集的概括統計量 scale:矩陣標准化
matplot:對矩陣各列繪圖 cor:相關陣或協差陣 Contrast:對照矩陣 row:矩陣的行下標集 col:求列下標集
四、線性代數
solve:解線性方程組或求逆 eigen:矩陣的特征值分解 svd:矩陣的奇異值分解 backsolve:解上三角或下三角方程組 chol:Choleski分解
qr:矩陣的QR分解 chol2inv:由Choleski分解求逆
五、邏輯運算
<,>,<=,>=,==,!=:比較運算符 !,&,&&,|,||,xor():邏輯運算符 logical:生成邏輯向量 all,any:邏輯向量都為真或存在真
ifelse():二者擇一 match,%in%:查找 unique:找出互不相同的元素 which:找到真值下標集合 duplicated:找到重復元素
六、優化及求根
optimize,uniroot,polyroot:一維優化與求根
程序設計
一、控制結構
if,else,ifelse,switch:分支 for,while,repeat,break,next:循環 apply,lapply,sapply,tapply,sweep:替代循環的函數。
二、函數
function:函數定義 source:調用文件 call:函數調用 .C,.Fortran:調用C或者Fortran子程序的動態鏈接庫。 Recall:遞歸調用
browser,debug,trace,traceback:程序調試 options:指定系統參數 missing:判斷虛參是否有對應實參 nargs:參數個數 stop:終止函數執行
on.exit:指定退出時執行 eval,expression:表達式計算 system.time:表達式計算計時 invisible:使變量不顯示 menu:選擇菜單(字符列表菜單)
其它與函數有關的還有:delay,delete.response,deparse,do.call,dput,environment ,,formals,format.info,interactive,
is.finite,is.function,is.language,is.recursive ,match.arg,match.call,match.fun,model.extract,name,parse,substitute,sys.parent ,warning,machine
三、輸入輸出
cat,print:顯示對象 sink:輸出轉向到指定文件 dump,save,dput,write:輸出對象 scan,read.table,load,dget:讀入
四、工作環境
ls,objects:顯示對象列表 rm, remove:刪除對象 q,quit:退出系統 .First,.Last:初始運行函數與退出運行函數。
options:系統選項 ?,help,help.start,apropos:幫助功能 data:列出數據集 head()查看數據的頭幾行 tail()查看數據的最后幾行
統計計算
一、統計分布
每一種分布有四個函數:d――density(密度函數),p――分布函數,q――分位數函數,r――隨機數函數。
比如,正態分布的這四個函數為dnorm,pnorm,qnorm,rnorm。下面我們列出各分布后綴,前面加前綴d、p、q或r就構成函數名:
norm:正態,t:t分布,f:F分布,chisq:卡方(包括非中心) unif:均勻,exp:指數,weibull:威布爾,gamma:伽瑪,beta:貝塔
lnorm:對數正態,logis:邏輯分布,cauchy:柯西, binom:二項分布,geom:幾何分布,hyper:超幾何,nbinom:負二項,pois:泊松 signrank:符號秩,
wilcox:秩和,tukey:學生化極差
二、簡單統計量
sum, mean, var, sd, min, max, range, median, IQR(四分位間距)等為統計量,sort,order,rank與排序有關,其它還有ave,fivenum,mad,quantile,stem等。
三、統計檢驗
R中已實現的有chisq.test,prop.test,t.test。
四、多元分析
cor,cov.wt,var:協方差陣及相關陣計算 biplot,biplot.princomp:多元數據biplot圖 cancor:典則相關 princomp:主成分分析 hclust:譜系聚類
kmeans:k-均值聚類 cmdscale:經典多維標度 其它有dist,mahalanobis,cov.rob。
五、時間序列
ts:時間序列對象 diff:計算差分 time:時間序列的采樣時間 window:時間窗
六、統計模型
lm,glm,aov:線性模型、廣義線性模型、方差分析
大量的R語言學習資料和一些R語言框架:http://www.open-open.com/lib/view/open1430289716380.html