rna call varients時gatk推薦工具,broad institute都推薦了,還是encode計划時冷泉港內部開發的,特點:超級快速(8min map完6gb的reads)、as支持性好、支持長reads、全轉錄本、發現嵌合轉錄本等,有理由看一下。百度了下,沒中文的博文,我來翻譯一個吧……
####################
原理:
STAR utilizes sequential maximum mappable seed search in uncompressed suffix arrays followed by seed clustering and stitching procedure.
使用:
沒耐心讀manual的人:
1.安裝:
建議下這個預編譯靜態連接穩定版的 https://rna-star.googlecode.com/files/STAR_2.3.0e.Linux_x86_64_static.tgz
或github自行下載新版,解壓后即有預編譯的執行文件,可在x86和x64的linux上運行,mac OS等其它環境需要自行編譯。(筆者用2.4.0d版本,動態和靜態庫版都經常出現c++的一些問題,估計是集群的環境較低導致,避免折騰,用上面那個googlecode里下載的穩定版)
2.建庫:對genome建索引,新建文件夾/path/to/GenomeDir
2種方式,無注釋的:
有注釋引導的(gff3或gtf):
gff3的話,再加 --sjdbGTFtagExonParentTranscript Parent
4.共享內存:
map的時候,這個參數控制基因組讀到ram里面是否作為共享的,如果共享,其它在同節點運行的同樣以此genome作為ref的star任務,可以共享它,節省計算資源。若要使用,請讀manual。
log、sam、剪切點注釋 三類文件,需要注意的是,sam里第五列 uniquely mapping reads的map質量值是255。
Manual:
https://code.google.com/p/rna-star/downloads/detail?name=STARmanual_2.3.0.1.pdf
####################
star map to gatk:
2輪map策略,第一次直接用ref的fa序列建index來map,生成的js注釋合並ref的fa再建庫,再map一次。 map完用picard加read groups,等。后續gatk中加上Split'N'Trim步驟,此步驟gatk3.2-2中存在bug,無法跑通,需要下載nightly builds版本或更新穩定版。
詳見gatk說明頁面:
