R語言內置數據集


 R語言有一個好處,里面內置了大量數據集和案例,這樣在學習的時候,無需自己去找數據集,可以就可以根據案例來進行操作。這種優點也被R的很多開發包繼承了,甚至在R的bioconductor項目中,將實驗數據單獨打包成獨立的包,來供不同算法進行測試學習。 

#在R中直接敲data()命令就會輸出R內置數據集

data()

#添加上固定的擴展包,加載里面的數據
data(package="packagename")

#直接加載擴展包中的數據集
> data(Cars93,package = "MASS")

由於R內置數據集沒有分類,這里我們給出一個根據數據結構分類的列表
[size=1.1em]向量
euro    #歐元匯率,長度為11,每個元素都有命名
landmasses    #48個陸地的面積,每個都有命名
precip    #長度為70的命名向量
rivers    #北美141條河流長度
state.abb    #美國50個州的雙字母縮寫
state.area    #美國50個州的面積
state.name    #美國50個州的全稱
[size=1.1em]因子
state.division    #美國50個州的分類,9個類別
state.region    #美國50個州的地理分類
[size=1.1em]矩陣、數組
euro.cross    #11種貨幣的匯率矩陣
freeny.x    #每個季度影響收入四個因素的記錄
state.x77    #美國50個州的八個指標
USPersonalExpenditure    #5個年份在5個消費方向的數據
VADeaths    #1940年弗吉尼亞州死亡率(每千人)
volcano    #某火山區的地理信息(10米×10米的網格)
WorldPhones    #8個區域在7個年份的電話總數
iris3    #3種鳶尾花形態數據
Titanic    #泰坦尼克乘員統計
UCBAdmissions    #伯克利分校1973年院系、錄取和性別的頻數
crimtab    #3000個男性罪犯左手中指長度和身高關系
HairEyeColor    #592人頭發顏色、眼睛顏色和性別的頻數
occupationalStatus    #英國男性父子職業聯系
[size=1.1em]類矩陣
eurodist    #歐洲12個城市的距離矩陣,只有下三角部分
Harman23.cor    #305個女孩八個形態指標的相關系數矩陣
Harman74.cor    #145個兒童24個心理指標的相關系數矩陣
[size=1.1em]數據框
airquality    #紐約1973年5-9月每日空氣質量
anscombe    #四組x-y數據,雖有相似的統計量,但實際數據差別較大
attenu    #多個觀測站對加利福尼亞23次地震的觀測數據
attitude    #30個部門在七個方面的調查結果,調查結果是同一部門35個職員贊成的百分比
beaver1    #一只海狸每10分鍾的體溫數據,共114條數據
beaver2    #另一只海狸每10分鍾的體溫數據,共100條數據
BOD    #隨水質的提高,生化反應對氧的需求(mg/l)隨時間(天)的變化
cars    #1920年代汽車速度對剎車距離的影響
chickwts    #不同飲食種類對小雞生長速度的影響
esoph    #法國的一個食管癌病例對照研究
faithful    #一個間歇泉的爆發時間和持續時間
Formaldehyde    #兩種方法測定甲醛濃度時分光光度計的讀數
Freeny     #每季度收入和其他四因素的記錄
dating from     #配對的病例對照數據,用於條件logistic回歸
InsectSprays     #使用不同殺蟲劑時昆蟲數目
iris    #3種鳶尾花形態數據
LifeCycleSavings    #50個國家的存款率
longley    #強共線性的宏觀經濟數據
morley    #光速測量試驗數據
mtcars    #32輛汽車在11個指標上的數據
OrchardSprays     #使用拉丁方設計研究不同噴霧劑對蜜蜂的影響
PlantGrowth     #三種處理方式對植物產量的影響
pressure     #溫度和氣壓
Puromycin     #兩種細胞中輔因子濃度對酶促反應的影響
quakes     #1000次地震觀測數據(震級>4)
randu     #在VMS1.5中使用FORTRAN中的RANDU三個一組生成隨機數字,共400組。
     #該隨機數字有問題。在VMS2.0以上版本已修復。
rock     #48塊石頭的形態數據
sleep     #兩葯物的催眠效果
stackloss     #化工廠將氨轉為硝酸的數據
swiss     #瑞士生育率和社會經濟指標
ToothGrowth     #VC劑量和攝入方式對豚鼠牙齒的影響
trees    #樹木形態指標
USArrests    #美國50個州的四個犯罪率指標
USJudgeRatings    #43名律師的12個評價指標
warpbreaks    #織布機異常數據
women    #15名女性的身高和體重
[size=1.1em]列表
state.center    #美國50個州中心的經度和緯度
[size=1.1em]類數據框
ChickWeight    #飲食對雞生長的影響
CO2    #耐寒植物CO2攝取的差異
DNase    #若干次試驗中,DNase濃度和光密度的關系
Indometh    #某葯物的葯物動力學數據
Loblolly    #火炬松的高度、年齡和種源
Orange    #桔子樹生長數據
Theoph    #茶鹼葯動學數據
[size=1.1em]時間序列數據
airmiles    #美國1937-1960年客運里程營收(實際售出機位乘以飛行哩數)
AirPassengers    #Box & Jenkins航空公司1949-1960年每月國際航線乘客數
austres    #澳大利亞1971-1994每季度人口數(以千為單位)
BJsales    #有關銷售的一個時間序列
BJsales.lead    #前一指標的先行指標(leading indicator)
co2    #1959-1997年每月大氣co2濃度(ppm)
discoveries    #1860-1959年每年巨大發現或發明的個數
ldeaths    #1974-1979年英國每月支氣管炎、肺氣腫和哮喘的死亡率
fdeaths    #前述死亡率的女性部分
mdeaths    #前述死亡率的男性部分
freeny.y    #每季度收入
JohnsonJohnson    #1960-1980年每季度Johnson & Johnson股票的紅利
LakeHuron    #1875-1972年某一湖泊水位的記錄
lh     #黃體生成素水平,10分鍾測量一次
lynx    #1821-1934年加拿大猞猁數據
nhtemp     #1912-1971年每年平均溫度
Nile     #1871-1970尼羅河流量
nottem     #1920-1939每月大氣溫度
presidents     #1945-1974年每季度美國總統支持率
UKDriverDeaths     #1969-1984年每月英國司機死亡或嚴重傷害的數目
sunspot.month     #1749-1997每月太陽黑子數
sunspot.year     #1700-1988每年太陽黑子數
sunspots    #1749-1983每月太陽黑子數
treering    #歸一化的樹木年輪數據
UKgas    #1960-1986每月英國天然氣消耗
USAccDeaths    #1973-1978美國每月意外死亡人數
uspop    #1790–1970美國每十年一次的人口總數(百萬為單位)
WWWusage    #每分鍾網絡連接數
Seatbelts     #多變量時間序列。和UKDriverDeaths時間段相同,反映更多因素。
EuStockMarkets     #多變量時間序列。歐洲股市四個主要指標的每個工作日記錄。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM