當我們測完序拿到原始數據之后,第一件事肯定是進行rawdata進行過濾。質控過濾軟件如fastqc、multiQC、trimmomatic等。
得到基因組的clean reads后,無非兩件事,一是denovo組裝,構建參考序列;二是重測序,分析變異及后續基因表達定量、功能等下游分析。
1. 基因組組裝
物種從頭測序的黃金時代已經過去,該測完的、容易測的大多數已經測完了。
一個物種的基因組組裝分析結果及其所用軟件往往包含以下內容:
組裝->注釋->比較基因組分析->后面可能會加點功能分析或者搭建類似JBrowse基因組瀏覽器。
- 組裝軟件:SOAPdenovo,ALLPATH-LG等等;
- 注釋軟件:Fgenesh、GeneWise、Augustus、RepeatModel、RepeatMasker等等。
2. 基因組重測序
有了參考序列的情況下,將原始reads比對回基因組,即重測序分析,可以說現在的絕大部分生信分析都是針對重測序,只是應用到其他各個不同領域,我們也可以說,這就是后基因組時代。分析常常包括:
比對->變異檢測(SNP、InDel、CNV、SV等)->群體分析(PI、LD、Fst等)->后續一些功能方面的分析。
- 比對:BWA、Bowtie2、SOAP、Samtools等。比對完生成sam/bam文件,有人說你對bam文件格式的熟悉程度就是你做重測序項目經驗的體現。
- 變異檢測:常用GATK來進行SNP、InDel等變異檢測,這一步叫做call變異,最后生成一個vcf格式文件。再用vcftools/bcftools等軟件過濾掉質量低的不可靠的變異位點。用SnpEff軟件對變異位點進行注釋,及這些變異對基因功能產生什么影響。
3. 轉錄組測序
以上測的是基因組序列,如果是轉錄組,也是分為有參考基因組和無參考基因組兩種情況來分析。
(組裝->)比對->表達量->差異->功能等分析。當然也會有一些RNA結構的分析,如可變剪接、融合基因等等。
-
如果是無參考基因組,需要denovo拼接。軟件如Trinity組裝得到轉錄本序列,然后用軟件如bowtie2比對到轉錄本序列得到sam文件,根據比對結果用軟件如RSEM進行表達定量分析。
-
如果有參考基因組,直接使用 HISAT2或STAR等軟件將測序結果比對到基因組上,結合基因注釋就可以計算出每個基因的表達。
后續就是差異基因分析,常用軟件DESeq2和edgeR,最后最一些功能方面的分析。
其他如WES、CHIPseq、ATACseq、lncRNA、甲基化測序、scRNAseq等等其實都是類似的,區別就是前期的樣本處理和建庫流程不同,目的就是得到不同時空條件下的目標序列,然后再進行測序,當然使用的后處理軟件也會有所不同。
Ref:https://www.zhihu.com/question/23566982/answer/131147960