R語言的可視化


1. 完整的數據分析流程

  • 定義研究問題
  • 定義理想數據集
  • 確定能夠獲取什么數據
  • 清理數據

2. 變量的類型:

  • 數值變量(可進行加減乘除運算):連續(可在給定區間取任意數值)、離散(給定集合內不連續取值)
  • 分類變量(取值空間有限,不能進行運算):有序(順序有意義)、無序(不可比較)
1. 數值變量特征和可視化

集中趨勢測量(均值、中位數、眾數)
均值=(數值之和)/(數值個數)
中位數=排序后位於正中間的一個數(奇數)、排序后位於正中間的兩個數的均值(偶數)
眾數=出現次數最多的數

分散趨勢測量(值域、方差、標准差、四分位距)

舉個例子:

其中,中位數、四分位距是穩健統計量,受極端值影響小。

一個數值變量的可視化
柱狀圖:橫坐標表示預測值所有可能的取值,縱坐標表示頻數。
點圖:橫坐標表示預測值所有可能的取值,縱坐標表示出現的次數。比如出現了一次,就會對應一個點。
箱圖:展示25%分位點、50%分位點、75%分位點。在范圍(25%分位點-1.5四分位距,75%分位點+1.5四分位距)之外的點命異常點。

兩個數值變量的關系
散點圖:顯示方向、形狀、強度、極端值。比如正相關、負相關。

2. 分類變量的特征和可視化

一個分類變量可視化
頻率表:表格的形式展現數據的分類水平出現的頻率。
條形圖:橫坐標表示分類變量的每一個水平。

兩個分類變量的關系
關聯表
相對頻率表
分段條形圖、相對頻率的分段條形圖
馬賽克圖

3.一個分類變量一個數值變量

並排箱圖:橫軸分類變量取值,縱軸為每個分類變量下對應的數值變量。

3. 三大繪圖系統

基本繪圖系統
藝術家的調色板,繪圖始於空白畫布。分為兩個步驟 = 圖+修飾添加 = 執行一系列的函數。適於繪制2D圖。
繪圖函數(graphics包)---plot/ hist / boxplot /points /lines /text /title / axis,調用函數的時候會啟動一個圖形設備。
plot(x,y,...),其中重要的參數有:xlab / ylab:x軸y 軸的標簽,lwd線寬,lty線的類型(2為虛線),pch點,col顏色。
par(),用於設置全局參數,bg:背景顏色,mar邊距,las標簽排版,mfrow行列,mfcol列行。
舉例子:

hist(airquality$Wind,xlab = "wind")
#一個數值變量的直方圖

boxplot(airquality$Wind,xlab="wind",ylab="speed")
#一個數值變量的箱圖

boxplot(Wind~Month,airquality)
#一個數值變量一個分類變量的並排箱圖,橫軸為分類水平。

plot(airquality$Wind,airquality$Temp)
#風速與溫度的散點圖,也可以寫成with函數:
with(airquality,plot(Wind,Temp))

with(subset(airquality,Month==9),points(Wind,Temp,col="red"))
with(subset(airquality,Month==5),points(Wind,Temp,col="blue"))
with(subset(airquality,Month %in% c(6,7,8)),points(Wind,Temp,col="black"))
不同月份的點用不同顏色繪制

fit<-lm(Temp~Wind,airquality)
abline(fit,lwd=2)
#做一條擬合線

legend("topright",pch=1,col = c("red","blue","black"),legend = c("sep","may","other"))
#做圖例

par(mfrow=c(1,2))
hist(airquality$Wind)
hist(airquality$Temp)
#將屏幕分為兩個部分作圖。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM