R語言dplyr包的學習

本文轉載自查看原文 2017-11-19 22:02 1039 R語言/ 數據處理

dplyr包可以看作是plyr包的一個擴展，主要是針對數據框的數據操作。

在使用dplyr包中的函數對數據框進行操作之間，最好將其轉換為tbl對象：tbl_df()

一個很好的效果是，tbl對象可以根據顯示空間大小來進行部分顯示。

利用dplyr包常見的數據操作可歸納為以下5種：

按給定的邏輯判斷篩選出符合要求的子數據集, 返回符合條件的子數據集的行。類似於 base::subset() 函數

filter(.data, ...) .data為數據集，...為邏輯判斷條件，多個參數條件相當於and連接

此外，... 還有一些特殊用法：

按給定的列名依次對行進行排序.這個函數和 plyr::arrange() 是一樣的, 類似於 order()

arrange(.data, ...) ... 一串逗號分割無引號的列名。默認升序，可利用desc()進行降序

用列名作參數來選擇子數據集，類似於R自帶的 subset() 函數

select(.data, ...) ...是無引號一系列的以逗號分割的表達式。可以是列名

此外，... 還有一些特殊用法：

另外，select還可用於改列名。

select(iris, petal_length = Petal.Length)

相當於 rename(iris, petal_length = Petal.Length)

只是，select返回的是所選中的列，而rename返回的是所有列。

對已有列進行數據運算並添加為新列，並保留原始變量。作用與 plyr::mutate() 相同, 與base::transform() 相似, 優勢在於可以在同一語句中對剛增加的列進行操作。而同樣操作用R自帶函數 transform() 的話就會報錯

mutate(.data, ...) ... 名字-值的成對表達式，利用colname=NULL扔掉變量

此外，... 還有一些特殊用法：

另注意：mutate添加新變量並保留原變量；而transmute扔掉原始變量。

同時與之比較相關的函數有mutate_all()，mutate_at()，mutate_if()

類似的有：transmute_all()，transmute_at()，mutate_if()

summarise_all()，summarise_at()，summarise_if()

group_by_all()，group_by_at()，group_by_if()

對數據框調用其它函數進行匯總操作, 返回一維的結果，等同於 plyr::summarise(),

summarise(.data, ...) ... 名字-值的表達式，值是匯總函數

此外， ... 還有一些特殊用法：

其實，summarise()常被用於匯總經group_by后的分組數據，並且每個組輸出一行

分組操作 group_by()

根據某些變量進行分組。

group_by(.data, ..., add = FALSE) ... 用於分組的變量，add=false，覆蓋現有組，true在現有組基礎上添加

與之對應的還有，去除分組ungroup(x,...)

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 R語言dplyr包使用入門 R語言-數據整形之dplyr包 R----dplyr包介紹學習 R語言數據處理包dplyr、tidyr筆記 R語言中的數據處理包dplyr、tidyr筆記 R語言shiny包的學習 R語言數據處理利器——dplyr簡介 R語言：使用dplyr提取行、列（filter, select） R語言爬蟲初嘗試-基於RVEST包學習 R語言機器學習包