我的原始測序數據是雙端測序,在用trim_galore軟件去接頭的這一步,使用的命令行是
time nohup trim_galore R17002628-SKOV3-m6A_combined_R1.fastq.gz R17002628-SKOV3-m6A_combined_R2.fastq.gz &
相當然的以為軟件會默認為雙端測序,結果接下來一步用tophat軟件mapping到參考基因組上的時候,發現mapping率只用10%,低的驚人。后來排除建庫失敗的可能,我去查看了trim_galore運行時的日志文件,如下:
Input filename: /data/itmll/yanlu/2017-08-24_data/Project_s272g01038/Sample_R17002629-SKO V3-Tax-m6AR17002629-SKOV3-Tax-m6A_combined_R2.fastq.gz Trimming mode: single-end
發現是single_end!
正確的命令行是
time nohup trim_galore --paired R17002629-SKOV3-Tax-m6A_combined_R1.fastq.gz R17002629-SKOV3-Tax-m6A_combined_R2.fastq.gz &
指定--paired參數
mapping率低的原理:
single-end模式下,可能雙端測序的同一條read中有一條的length不合格,所以trim_galore會將其刪除,結果是trim后的兩個文件read數不一樣。tophat認為雙端測序文件的順序是一一對應的,這樣導致的后果是,tophat以為雙端測序的兩條readmapping到不同的位置上了,就會舍棄,導致mapping率低。