GC偏好

測序中的GC偏好指的是基因組上GC含量在50%左右的區域更容易被測到，產生的reads更多，這些區域的覆蓋度更高，

在高GC或者低GC區域，不容易被測到，產生較少的reads，這些區域的覆蓋度更少。

用基因組單位長度的bin中的GC含量作為橫坐標，覆蓋度作為縱坐標作圖，可以明顯的看到該趨勢。這種趨勢在100kb為單位的bin中依然存在。

如圖A中可以看出隨着GC含量的增加，counts是先增加后減少，bin的大小為10kb。圖C可以看出大部分片斷的GC含量0.4到0.6之間。

GC偏好也存在其他地方，比如基因編碼區內密碼子的最后一位，C鹼基往往占優勢；基因的長度和GC含量成相關性；

Aquifex aeolicus 的基因組整體GC含量是43%，而核糖體RNA操縱子的GC含量是65%。

如圖，雞(Gallus_gallus-5.0)基因組的GC含量與基因密度之間的散點圖和擬合曲線，相關性非常明顯。

影響

舉個例子，

1）在檢測拷貝數的時候，GC含量低或者高的區域，其覆蓋度小於GC含量中等的，但不意味着僅僅根據測序的覆蓋度，就認為GC含量中等的拷貝數比高/低GC含量區域的高。

2）在做RNA測序分析的時候，GC含量高/低的區域reads數少，並不一定說明這個基因的表達量低。

3）在做基因組拼接的時候，因為GC偏好的存在，高/低GC含量的區域被測的少，這些區域的拼接難度就較大。

來源

測序中GC偏好不均衡的結果來源於多個因素，比如對文庫進行PCR擴增的時候，cluster簇擴增的時候，測序的時候，不同實驗室之間，實驗批次之間，不同的樣本類型等等。

這些因素都會影響測序數據。

校正

因為GC偏好可能會對特定的分析結果造成影響，放大變異影響真實信息，所以需要校正。有一種簡單的校正，就是先統計每個GC含量（0, 1, 2, 3,…, 100%）下的特定bin的平均覆蓋度，再計算所有bin的平均覆蓋度，用來校正測序得到的覆蓋度。

特定bin校正后的覆蓋度 = 該bin的原始覆蓋度 *（所有bin的平均覆蓋度/與該bin的有相同GC含量的所有bin的平均覆蓋度）

還有算法計算了每個bin的GC含量與觀察到的depth之間的關聯性，擬合出一條趨勢線，用原始的覆蓋度減去該趨勢。

結果

有研究表明在需要考慮GC偏好帶來的影響的實驗中，通過GC校正能顯著改善結果。

參考：

Yoon, Seungtai, et al. “Sensitive and accurate detection of copy number variants using read depth of coverage.” Genome research 19.9 (2009): 1586-1592.
Benjamini, Yuval, and Terence P. Speed. “Summarizing and correcting the GC content bias in high-throughput sequencing.” Nucleic acids research 40.10 (2012): e72-e72.
Tilak, Marie-Ka, et al. “Illumina library preparation for sequencing the GC-rich fraction of heterogeneous genomic DNA.” Genome biology and evolution 10.2 (2018): 616-622.
https://en.wikipedia.org/wiki/GC-content
https://www.sciencedirect.com/topics/neuroscience/gc-content

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 GC偏好的校正與偏好程度的評估 Kotlin偏好設置 Ubuntu18.04偏好設置 Java利用Preferences設置個人偏好 GC 是什么？為什么要有 GC？ GC算法與GC GC是什么? 為什么要有GC? mac上系統偏好里無法停止mysql 從各類信用利差走勢看風險偏好 Partial GC、Minor GC/Young GC、Major GC/Old GC、Mixed GC、Full GC 的含義