生信技能樹R語言部分學習筆記
dir() #列出工作目錄下的文件
ls() #列出環境中的變量
1. 認識csv格式
csv打開方式:
(1)默認excel
(2)記事本打開
(3)sublime(適用大文件)
(4)R語言讀取:讀進R語言之后的數據是一個數據框,可賦值,變量名與文件名無必然聯系,對數據框進行的修改不會同步到表格文件。
2. 認識分隔符
常見分隔符:
逗號,
空格
制表符(\t)
CSV: Comma Separated Values
TSV: Tab Separated Values
后綴名沒有意義,只是人為定義的格式后綴,約定俗成。在windows電腦上可以更好的綁定打開該文件的軟件。
其本質都是純文本文件。
3. 將表格文件讀入R語言,成為數據框
read.csv()
——通常讀取csv格式
read.table()
——通常讀取txt格式
直接讀取文件失敗,就需要指定一些參數.
eg: read.table()
中的header=T
表示讀取文件的列名,默認是header=F
read.csv()
中header
默認是T;
row.names = 1
把第一列設置為行名;
check.names = F
防止列名發生改變?
comment.char = "!"
指出以什么字符開始的是文件的注釋,這里指出以!開始的是注釋
4. 將數據框導出,成為表格文件
(1) 導出為csv格式:write.csv()
write.csv(test, file="example.csv")
test是要導出的數據框的變量名,"example.csv"是導出到的文件名
write.table(test, file="example.csv", sep=',')
與上面的方法等價
(2)導出txt格式:write.table()
write.table(test, file="example.txt")
處理數據流程:讀取---->編輯修改---->導出
注意:最好不要覆蓋原文件(讓代碼可重復,數據可重現)
5. R特有的數據格式:Rdata
- 是R語言特有的數據存儲格式,無法用其他軟件打開
- 保存的是變量,不是表格文件,所有不涉及賦值
save()
保存,load()
加載
eg:
save(test, file="example.Rdata")
load("example.Rdata")
注意:save()
中的形參file必須要寫,保存多個變量的格式save(ex1, ex2, file="tempt.Rdata")
Rproject的組織形式:
(1)腳本(.R)
(2)數據(.Rdata)
(3)表格(.txt or .csv)
常見報錯:找不到文件
可能的原因:
(1)原因1:文件沒有存放於工作目錄下(解決:Rproject)
(2)原因2:拼寫錯誤(解決:用tab自動補齊)
注意:默認參數不適用於當前讀取的文件也會報錯
查看數據結構:class()
查看數據類型:str()
R語言能讀取的文件格式
(1)通用格式
csv, xls, txt, tsv, json, pdf, spss...
(2)生信格式
fasta, fastq, bam, vcf, bed, gtf...
用於讀取/導出文件的R包
(1)base
包中
讀取:read.table()
, read.csv()
, read.delim()
寫入:write.table()
, write.csv()
(2)readr
包中
讀取:read_table()
, read_csv()
, read_tsv()
寫入:write_table()
, write_csv()
(3)data.table
包中
fread()
(4)rio
包中
讀取:import()
, import_list()
寫入:export()
library(rio) #讀取和輸出xlsx文件非常好
x <- import("ex2_B cell receptor signaling pathway.csv") #按照后綴識別文件
View(x)
export(x,"ad.xlsx")
#import_list() 可以讀取多個工作簿