R | 探索性數據分析 EDA


 

一、集中趨勢和離中趨勢

表示集中趨勢的指標們:

 均值、中位數、眾數、百分位數

異常值判定:

 3σ原則原則(還有很多別的原則):超出(μ-3σ,μ+3σ)的值,即超出箱線圖上下邊界的點

離散程度指標:

 極差(range)

 標准差(sta.dev)

 方差(variance)

 變異系數(CV):對標准差做去量綱化,消除兩組數據間測量尺度和量綱的影響

通過箱線圖來查看集中趨勢 (通過R自帶的鳶尾花數據集 iris)

iris
boxplot(iris[,2])

 

 二、相關系數(cor

Pearson相關系數

衡量兩個數據集合是否在一條線上面,它用來衡量定距變量間的線性關系

Spearman相關系數

衡量排序(秩)一致性

Kendall相關系數

計算多個等級變量相關程度的一種相關量

 

# 工作時間和薪水
jobtime = c(14,12,11,12,11)
salary = c(20000,17000,1650,1670,540)

# cor 默認的 method 為 pearson
cor(jobtime,salary)

# 指定使用 spearman
cor(jobtime,salary, method="spearman")

相比於線性關系,案例中的時間與薪水的排序效果更明顯,所以此處求得的 Spearman 比 Pearson 更大

 

 通過兩兩變量的組合圖來查看相關關系(以iris數據集為例)

pairs(iris[,1:4])

通過圖,就薛微可以看出來點線性關系

 

三、描述性統計

summary 函數:查看極值、上下四分位數、均值、中位數

summary(iris[,1:4])

 

fivenum:返回 極小值, 下四分位數,中位數,上四分位數,極大值

# 求單獨一列的fivenum
fivenum(iris[,1])
# 求多列的fivenum,借助apply函數
apply(iris[,1:4],2,fivenum)

 

quantile:返回某分位數處的值

# 求單獨一列的分位數
quantile(iris[,1], 0.3)
# 求多列的某分位數的值,借助apply函數
apply(iris[,1:4],2, function(x){return(quantile(x, 0.3))})

 

 Tip:解釋一下 apply 函數

四、假設檢驗 

原理:小概率事件實際基本不可能發生

分類:參數檢驗、非參數檢驗

H0 原假設:想證明它是錯的

H1 備擇假設:希望它是對的

H1與“不相等”對應的是雙側檢驗,與“小於”相對應的是左側檢驗,與“大於”相對應的是右側檢驗。(顯然hhhhhh)

 

 

案例:

單樣本 t 檢驗

t.test(iris[,1]) 

雙樣本 t 檢驗

# 選取兩個要做檢驗的對象
setosa_Sepal_Length = iris[which(iris$Species=="setosa"), "Sepal.Length"]
versicolor_Sepal_Length = iris[which(iris$Species=="versicolor"), "Sepal.Length"]
# 雙樣本 t 檢驗
t.test(setosa_Sepal_Length,versicolor_Sepal_Length)

 

 

 

別的寫了再補充


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM