C含量分布圖 Per sequence GC content
這個圖理論上應該符合正態分布(也就是鍾形曲線),除非有過表達的序列( over-represented sequences)[也就是在正態分布的基礎上有一個尖尖的峰],或者存在其他物種的污染[也就是多個峰]
從這個圖中可以看到,這個應該是符合過表達序列的情況,說明要么存在序列污染,要么是有個特別高表達的基因
重復序列數 Sequence Duplication Levels
這個圖可以幫助判斷文庫的復雜程度,如果PCR擴增次數太多或者起始擴增底物太少,都會降低文庫的復雜度。
這個圖中可以看到,似乎有大量的重復序列,也就是說文庫復雜程度低,可能與某個基因的過表達有關
過表達序列表 Overrepresented sequences
這個表的作用也非常重要!
它展示了長度至少20bp,數量占總數0.1%以上的reads鹼基組成,它可以幫助判斷污染(比如:載體、接頭序列)
如果上面的GC含量分布圖"掛了",這個表可以幫助我們判斷來源,如果是已知的載體或者接頭,它會列出來;如果不是,可以復制序列去blast。
比如這里就可以去復制表達最多的第一條序列去blast,然后發現它其實是一個基因,於是可以驗證之前的猜想:基因過表達
來源: