一.數據類型 5種
1.character 字符
2.numeric 數值
3.integer 整數 一般數字的存儲會默認為數值類型,如果要強調是整數,需要在變量值后面加上 L。 x <- 5L class(x)
4.complex 復數 1+2i
5.logical 邏輯 TRUE&FALSE
class()查看數據類型
R語言對大小寫敏感
二。數據結構
屬性:名稱、維度、類型、向量結構
向量(vector):只能包含同一類型的對象。
創建向量方法1:x1 <- vector("integer",length = 4)
方法2:x2 <- 1:4
方法3:x3 <- c(1,2,3,4)
向量的其他特點,如果往向量里傳的數據類型不一樣,向量會強制轉成同一種類型。x <- c(TRUE,10,"a") 結果都會轉換成字符型元素。
向量數據類型的轉換:as.xxx()
向量還可以給參量命名:
names(向量名) <- c(跟參量數量一致的名字)
向量名
矩陣和數組|matrix&array
矩陣可以看做 向量+維度屬性(整數向量:nrow,ncol)
x<-matrix(1:4,nrow=2,ncol=2)
矩陣的填充方式是按列填充。
矩陣的相關函數:dim(x) 查看矩陣行列信息。
attributes()可以查詢矩陣屬性。
其他創建矩陣的辦法(矩陣其實就是向量+維度信息)
矩陣的拼接:
按行拼接
按列拼接
數組 array
數組與矩陣非常相似,只是維度可以大於2
列表(是r中非常重要的數據結構
)
跟前面數據結構最大不同是可以包涵不同類型對象;可以直接給列表里的元素命名。
如何給矩陣的每行、每列命名?
用dimnames()
因子
分類數據,可分成有序和無序(按能否比大小來區分)
缺失值
NA&NaN
NA不屬於NaN,NaN屬於NA
NaN用來表示非法運算導致的缺失值,NA用來表示的范圍更廣。
相關函數,判斷是否是na或nan is.na()
缺失值的處理,用平均數或者眾數去補全。
數據框(data.frame())
用來存儲表格數據,跟列表、矩陣關系都很密切。
日期與時間結構
時間分成兩個類型,POSIXct/POSIXlt
表示距離1970-01-01過去了多少秒。前者存儲的數據是整數,常寸在數據框中
POSIXlt是列表,包含年月日星期等
一個數據矩陣的每一行數據叫作一次觀測,每一列叫作一個變量。