捋一下測序后生信分析內容及其常用軟件


當我們測完序拿到原始數據之后,第一件事肯定是進行rawdata進行過濾。質控過濾軟件如fastqc、multiQC、trimmomatic等。

得到基因組的clean reads后,無非兩件事,一是denovo組裝,構建參考序列;二是重測序,分析變異及后續基因表達定量、功能等下游分析。

1. 基因組組裝

物種從頭測序的黃金時代已經過去,該測完的、容易測的大多數已經測完了。

一個物種的基因組組裝分析結果及其所用軟件往往包含以下內容:
image.png

組裝->注釋->比較基因組分析->后面可能會加點功能分析或者搭建類似JBrowse基因組瀏覽器。

  • 組裝軟件:SOAPdenovo,ALLPATH-LG等等;
  • 注釋軟件:Fgenesh、GeneWise、Augustus、RepeatModel、RepeatMasker等等。

2. 基因組重測序

有了參考序列的情況下,將原始reads比對回基因組,即重測序分析,可以說現在的絕大部分生信分析都是針對重測序,只是應用到其他各個不同領域,我們也可以說,這就是后基因組時代。分析常常包括:
image.png

比對->變異檢測(SNP、InDel、CNV、SV等)->群體分析(PI、LD、Fst等)->后續一些功能方面的分析。

  • 比對:BWA、Bowtie2、SOAP、Samtools等。比對完生成sam/bam文件,有人說你對bam文件格式的熟悉程度就是你做重測序項目經驗的體現。
  • 變異檢測:常用GATK來進行SNP、InDel等變異檢測,這一步叫做call變異,最后生成一個vcf格式文件。再用vcftools/bcftools等軟件過濾掉質量低的不可靠的變異位點。用SnpEff軟件對變異位點進行注釋,及這些變異對基因功能產生什么影響。

3. 轉錄組測序

以上測的是基因組序列,如果是轉錄組,也是分為有參考基因組和無參考基因組兩種情況來分析。
image.png

(組裝->)比對->表達量->差異->功能等分析。當然也會有一些RNA結構的分析,如可變剪接、融合基因等等。

  • 如果是無參考基因組,需要denovo拼接。軟件如Trinity組裝得到轉錄本序列,然后用軟件如bowtie2比對到轉錄本序列得到sam文件,根據比對結果用軟件如RSEM進行表達定量分析。

  • 如果有參考基因組,直接使用 HISAT2或STAR等軟件將測序結果比對到基因組上,結合基因注釋就可以計算出每個基因的表達。

后續就是差異基因分析,常用軟件DESeq2和edgeR,最后最一些功能方面的分析。

其他如WES、CHIPseq、ATACseq、lncRNA、甲基化測序、scRNAseq等等其實都是類似的,區別就是前期的樣本處理和建庫流程不同,目的就是得到不同時空條件下的目標序列,然后再進行測序,當然使用的后處理軟件也會有所不同。

Ref:https://www.zhihu.com/question/23566982/answer/131147960


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM