GC偏好


GC偏好

測序中的GC偏好指的是基因組上GC含量在50%左右的區域更容易被測到,產生的reads更多,這些區域的覆蓋度更高,

                                                     在高GC或者低GC區域,不容易被測到,產生較少的reads,這些區域的覆蓋度更少。

用基因組單位長度的bin中的GC含量作為橫坐標,覆蓋度作為縱坐標作圖,可以明顯的看到該趨勢。這種趨勢在100kb為單位的bin中依然存在。

如圖A中可以看出隨着GC含量的增加,counts是先增加后減少,bin的大小為10kb。圖C可以看出大部分片斷的GC含量0.4到0.6之間。

GC偏好也存在其他地方,比如基因編碼區內密碼子的最后一位,C鹼基往往占優勢;基因的長度和GC含量成相關性;

Aquifex aeolicus 的基因組整體GC含量是43%,而核糖體RNA操縱子的GC含量是65%。

如圖,雞(Gallus_gallus-5.0)基因組的GC含量與基因密度之間的散點圖和擬合曲線,相關性非常明顯。

影響

舉個例子,

1)在檢測拷貝數的時候,GC含量低或者高的區域,其覆蓋度小於GC含量中等的,但不意味着僅僅根據測序的覆蓋度,就認為GC含量中等的拷貝數比高/低GC含量區域的高。

2)在做RNA測序分析的時候,GC含量高/低的區域reads數少,並不一定說明這個基因的表達量低。

3)在做基因組拼接的時候,因為GC偏好的存在,高/低GC含量的區域被測的少,這些區域的拼接難度就較大。

來源

測序中GC偏好不均衡的結果來源於多個因素,比如對文庫進行PCR擴增的時候,cluster簇擴增的時候,測序的時候,不同實驗室之間,實驗批次之間,不同的樣本類型等等。

這些因素都會影響測序數據。

校正

因為GC偏好可能會對特定的分析結果造成影響,放大變異影響真實信息,所以需要校正。有一種簡單的校正,就是先統計每個GC含量(0, 1, 2, 3,…, 100%)下的特定bin的平均覆蓋度,再計算所有bin的平均覆蓋度,用來校正測序得到的覆蓋度。

特定bin校正后的覆蓋度 = 該bin的原始覆蓋度 *(所有bin的平均覆蓋度/與該bin的有相同GC含量的所有bin的平均覆蓋度)

還有算法計算了每個bin的GC含量與觀察到的depth之間的關聯性,擬合出一條趨勢線,用原始的覆蓋度減去該趨勢。

結果

有研究表明在需要考慮GC偏好帶來的影響的實驗中,通過GC校正能顯著改善結果。

參考:

Yoon, Seungtai, et al. “Sensitive and accurate detection of copy number variants using read depth of coverage.” Genome research 19.9 (2009): 1586-1592.
Benjamini, Yuval, and Terence P. Speed. “Summarizing and correcting the GC content bias in high-throughput sequencing.” Nucleic acids research 40.10 (2012): e72-e72.
Tilak, Marie-Ka, et al. “Illumina library preparation for sequencing the GC-rich fraction of heterogeneous genomic DNA.” Genome biology and evolution 10.2 (2018): 616-622.
https://en.wikipedia.org/wiki/GC-content
https://www.sciencedirect.com/topics/neuroscience/gc-content


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM