內容概覽
盡管R是一門以數值向量和矩陣為核心的統計語言,但字符串同樣極為重要。從醫療研究數據里的出生日期到文本挖掘的應用,字符串數據在R程序中使用的頻率非常高。R語言提供了很多字符串操作函數,本文僅簡要以下幾種常用的字符串函數。
-
字符串分割函數:strsplit( )
-
字符串連接函數:paste( )
-
計算字符串長度:nchar( )
-
字符串截取函數:substr( )及substring( )
-
字符串替換函數:chartr( )
-
大小寫轉換函數:toupper( )、tolower( )及casefold( )
字符串分割函數:strsplit( )
strsplit( )函數用於字符串分割,其中split 是分割參數。所得結果以默認以list形式展示。
字符串連接函數:paste( )
主要參數:paste(..., sep = " ", collapse = NULL)
paste( )函數用於字符串連接,其中sep 負責兩組字符串間的連接;collapse 負責一組字符串內部的連接。
計算字符串長度:nchar( )
nchar( )返回字符串的長度。
字符串截取函數:substr( );substring( )
substr( )函數和substring( )函數是截取字符串最常用的函數,兩個函數功能方面是一樣的,只是其中參數設置不同。
substr( )函數:必須設置參數start和stop,如果缺少將出錯。
substring( )函數:可以只設置first參數,last參數若不設置,則默認為1000000L,通常是指字符串的最大長度。
例子如下:
字符串替換函數:chartr( )
chartr( )函數:將原有字符串中特定字符替換成所需要的字符。
其中參數old 表示原有字符串中內容;new 表示替換后的字符內容。
大小寫替換函數:toupper( )、tolower( )、casefold( )
toupper( )函數:將字符串統一轉換為大寫。
tolower( )函數:將字符串統一轉換為小寫。
casefold( )函數:根據參數轉換大小寫。