一、基本轉換
讀取Excel數據
methods(is) 函數可以查看所有 is 的方法。用於判斷數據
methods(as) 函數可以查看所有的轉換方法。
二、對大數據集,取數據子集
1.讀數據
兩種寫法
2.隨機抽樣函數 sample()
對向量抽樣
對數據框抽樣,取子集
3.刪除特定數據
原數據 mtcars
刪除1-5列
刪除mpg列
4.合並不同的數據集
美國50個州的數據
每個周的分區
合並后的數據集
或者
合並前20行和后20行
注意:
使用 cbind() 和 rbind() 函數合並矩陣時必須要有相同的行和列數
5.去除重復行
使用 duplicated() 函數判斷是否為重復值
使用 unique() 函數直接對數據集去重
三、數據框的翻轉
使用 t() 函數對mtcars數據進行行和列的翻轉
使用 rev() 函數實現向量倒置
通過翻轉數據框索引的方式實現 women 數據的翻轉
四、數據框數據的替換
使用 transform() 函數修改列的值
或者
women$height <- women$height*2.54
五、數據框的排序
1.sort() 函數,對向量進行排序
通過列名對數據框排序
2.order() 函數,也可對向量進行排序,不過返回的值是索引
對mtcars數據框中的mpg列進行排序
反排
對多個列進行排序
六、對數據框進行運算
1.apply() 函數,用於數據框或者矩陣
lapply() 函數,運算后返回的值是列表
sapply() 函數,運算后的值返回的是向量
使用state.center 列表數據
tapply() 函數,第二個參數是因子
查看區域有多少個州
七、數據的去中心化和去標准化處理,消除量綱對數據結構的影響
數據中心化:
指數據集中的各項數據減去數據集的均值
數據標准化:
指在中心化之后再除以數據集的標准差,即數據集中的各項數據減去數據集的均值再除以數據集的標准差。
1.案例,對 state.x77 數據繪制熱圖
heatmap(state.x77)
非常的不明顯,沒有意義
2.使用scale() 函數,實現去中心化和去標准化