fastqc結果中的Per sequence GC content, Sequence Duplication Levels 和 Overrepresented sequences


 

C含量分布圖 Per sequence GC content

這個圖理論上應該符合正態分布(也就是鍾形曲線),除非有過表達的序列( over-represented sequences)[也就是在正態分布的基礎上有一個尖尖的峰],或者存在其他物種的污染[也就是多個峰]

從這個圖中可以看到,這個應該是符合過表達序列的情況,說明要么存在序列污染,要么是有個特別高表達的基因

 

重復序列數 Sequence Duplication Levels

這個圖可以幫助判斷文庫的復雜程度,如果PCR擴增次數太多或者起始擴增底物太少,都會降低文庫的復雜度。

這個圖中可以看到,似乎有大量的重復序列,也就是說文庫復雜程度低,可能與某個基因的過表達有關

 

過表達序列表 Overrepresented sequences

這個表的作用也非常重要!

它展示了長度至少20bp,數量占總數0.1%以上的reads鹼基組成,它可以幫助判斷污染(比如:載體、接頭序列)

如果上面的GC含量分布圖"掛了",這個表可以幫助我們判斷來源,如果是已知的載體或者接頭,它會列出來;如果不是,可以復制序列去blast。

比如這里就可以去復制表達最多的第一條序列去blast,然后發現它其實是一個基因,於是可以驗證之前的猜想:基因過表達


來源:



免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM