一、均值
1.均值:mean(X)#計算所有元素的均值,包括矩陣、向量
2.行均值:apply(x,1,mean)
3.行均值:apply(x,2,mean)
注:如果x是數據框,則返回的就是向量
ex:mean(as.data.frame(x))
在做多元數據分析時,多元數據輸入最好使用數據框的方式輸入
4.在計算中某些數據是異常的,參數trim可以減少輸入誤差對計算的影響
ex:w.mean<-mean(w,trim=0.1)
0.1表示計算均值前需要去掉異常值的比例
5.有缺失值的時候無法計算均值,加上參數na.rm=TRUE可以計算有缺失值的均值
ex:w.mean<-mean(w.na,na.rm=TRUE);w.mean
6.加權向量
weight.mean(x,w,na.rm=TRUE)
x:數值向量
w:權值
二、順序統計量
1.順序排序
sort(x)
2.更廣泛的功能
格式:sort(x,partial=NULL,na.last=NA,decreasing=FALSE,method=c("shell","quick"),index.return=FALSE)
partial:部分排序的指標向量
na.last:=NULL:不處理缺失數據;=FALSE缺失數據排在最后面;=TRUE缺失數據排在最前面
method:選擇排序的方法。shell排序的復雜度為N的4/3次方,quick是快速排序
index.return:邏輯變量,TRUE為返回排序下標及排序結果,缺省為FASLE
decreasing:為TRUE時排序從大到小
三、中位數
中位數描述的是數據中心位置的數字特征,大體上比中位數或大或小的數據個數占整個數據的一半,對稱分布的數據均值與中位數比較接近,偏態分布均值與中位數不同,中位數不受異常值的影響,具有穩健性
median(x,na.rm=TRUE):計算向量x的中位數,可處理有缺失值的數據
四:百分位數
quantile(x,probs=seq(0,1,0,25),na.rm=FASLE,names=TRUE,type=7,...)
probs:分位位置
五:方差、標准差、變異系數
變異系數是刻畫數據相對分散性的一種度量記為CV=100*(s/x~)(%),x~為均值
方差:var(x)
標准差:sd(x)
協方差:cov(x)
相關矩陣:cor(x)
變異系數:cv=100*sd(x)/mean(x);cv
校正平方和:css=sum((w-mean(w))^2);css
未校正平方和:uss=sum(w^2);uss
樣本極差:R=max(x)-min(x);R
樣本標准誤:sm=sd(x)/sqrt(length(x))
樣本偏度系數:g1=n/((n-1)*(n-2))*sum((x-m)^3)/(sd(x))^3
樣本峰度系數:g2=(n*(n+1))/((n-1)*(n-2)*(n-3))*sum((x-m)^4)/s^4-(3*(n-1)^2)/((n-2)*(n-3))#s=sd(x)