一、集中趨勢和離中趨勢
表示集中趨勢的指標們:
均值、中位數、眾數、百分位數
異常值判定:
3σ原則原則(還有很多別的原則):超出(μ-3σ,μ+3σ)的值,即超出箱線圖上下邊界的點
離散程度指標:
極差(range)
標准差(sta.dev)
方差(variance)
變異系數(CV):對標准差做去量綱化,消除兩組數據間測量尺度和量綱的影響
通過箱線圖來查看集中趨勢 (通過R自帶的鳶尾花數據集 iris)
iris boxplot(iris[,2])
二、相關系數(cor)
Pearson相關系數
衡量兩個數據集合是否在一條線上面,它用來衡量定距變量間的線性關系
Spearman相關系數
衡量排序(秩)一致性
Kendall相關系數
計算多個等級變量相關程度的一種相關量
# 工作時間和薪水 jobtime = c(14,12,11,12,11) salary = c(20000,17000,1650,1670,540) # cor 默認的 method 為 pearson cor(jobtime,salary) # 指定使用 spearman cor(jobtime,salary, method="spearman")
相比於線性關系,案例中的時間與薪水的排序效果更明顯,所以此處求得的 Spearman 比 Pearson 更大
通過兩兩變量的組合圖來查看相關關系(以iris數據集為例)
pairs(iris[,1:4])
通過圖,就薛微可以看出來點線性關系
三、描述性統計
summary 函數:查看極值、上下四分位數、均值、中位數
summary(iris[,1:4])
fivenum:返回 極小值, 下四分位數,中位數,上四分位數,極大值
# 求單獨一列的fivenum fivenum(iris[,1]) # 求多列的fivenum,借助apply函數 apply(iris[,1:4],2,fivenum)
quantile:返回某分位數處的值
# 求單獨一列的分位數 quantile(iris[,1], 0.3) # 求多列的某分位數的值,借助apply函數 apply(iris[,1:4],2, function(x){return(quantile(x, 0.3))})
Tip:解釋一下 apply 函數
四、假設檢驗
原理:小概率事件實際基本不可能發生
分類:參數檢驗、非參數檢驗
H0 原假設:想證明它是錯的
H1 備擇假設:希望它是對的
H1與“不相等”對應的是雙側檢驗,與“小於”相對應的是左側檢驗,與“大於”相對應的是右側檢驗。(顯然hhhhhh)
案例:
單樣本 t 檢驗
t.test(iris[,1])
雙樣本 t 檢驗
# 選取兩個要做檢驗的對象 setosa_Sepal_Length = iris[which(iris$Species=="setosa"), "Sepal.Length"] versicolor_Sepal_Length = iris[which(iris$Species=="versicolor"), "Sepal.Length"] # 雙樣本 t 檢驗 t.test(setosa_Sepal_Length,versicolor_Sepal_Length)
別的寫了再補充