R語言4文件讀寫


生信技能樹R語言部分學習筆記

dir()   #列出工作目錄下的文件
ls()    #列出環境中的變量

1. 認識csv格式

csv打開方式:
(1)默認excel
(2)記事本打開
(3)sublime(適用大文件)
(4)R語言讀取:讀進R語言之后的數據是一個數據框,可賦值,變量名與文件名無必然聯系,對數據框進行的修改不會同步到表格文件。

2. 認識分隔符

常見分隔符:
逗號,
空格
制表符(\t)

CSV: Comma Separated Values
TSV: Tab Separated Values

后綴名沒有意義,只是人為定義的格式后綴,約定俗成。在windows電腦上可以更好的綁定打開該文件的軟件。

其本質都是純文本文件。

3. 將表格文件讀入R語言,成為數據框

read.csv()——通常讀取csv格式
read.table()——通常讀取txt格式

直接讀取文件失敗,就需要指定一些參數.
eg: read.table()中的header=T表示讀取文件的列名,默認是header=F
read.csv()header默認是T;
row.names = 1把第一列設置為行名;
check.names = F防止列名發生改變?
comment.char = "!"指出以什么字符開始的是文件的注釋,這里指出以!開始的是注釋

4. 將數據框導出,成為表格文件

(1) 導出為csv格式:write.csv()
write.csv(test, file="example.csv")
test是要導出的數據框的變量名,"example.csv"是導出到的文件名
write.table(test, file="example.csv", sep=',')與上面的方法等價

(2)導出txt格式:write.table()
write.table(test, file="example.txt")

處理數據流程:讀取---->編輯修改---->導出
注意:最好不要覆蓋原文件(讓代碼可重復,數據可重現)

5. R特有的數據格式:Rdata

  • 是R語言特有的數據存儲格式,無法用其他軟件打開
  • 保存的是變量,不是表格文件,所有不涉及賦值
  • save()保存,load()加載

eg:

save(test, file="example.Rdata")
load("example.Rdata")

注意:save()中的形參file必須要寫,保存多個變量的格式save(ex1, ex2, file="tempt.Rdata")

Rproject的組織形式:
(1)腳本(.R)
(2)數據(.Rdata)
(3)表格(.txt or .csv)

常見報錯:找不到文件
可能的原因:
(1)原因1:文件沒有存放於工作目錄下(解決:Rproject)
(2)原因2:拼寫錯誤(解決:用tab自動補齊)

注意:默認參數不適用於當前讀取的文件也會報錯

查看數據結構:class()
查看數據類型:str()

R語言能讀取的文件格式
(1)通用格式
csv, xls, txt, tsv, json, pdf, spss...
(2)生信格式
fasta, fastq, bam, vcf, bed, gtf...

用於讀取/導出文件的R包
(1)base包中
讀取:read.table(), read.csv(), read.delim()
寫入:write.table(), write.csv()
(2)readr包中
讀取:read_table(), read_csv(), read_tsv()
寫入:write_table(), write_csv()
(3)data.table包中
fread()
(4)rio包中
讀取:import(), import_list()
寫入:export()

library(rio)    #讀取和輸出xlsx文件非常好

x <- import("ex2_B cell receptor signaling pathway.csv")   #按照后綴識別文件
View(x)

export(x,"ad.xlsx")

#import_list() 可以讀取多個工作簿


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM