在測序一個新物種時,首先需要對該物種的基因組結構有所了解,包括以下幾個內容:
-
基因組大小
-
重復片段大小
-
雜合度大小
基因組越大,雜合度也大,重復片段越大,該物種的組裝難度就越大。通常我們會通過genome survery分析,對以上幾個指標進行簡單評估,核心就是通過kme 分布來進行評估。
對於不同的基因組雜合度,kmer分布如下
當雜合度為0.001時,只有一個峰;當雜合度為0.01和0.02時,都有多個峰。通過探究雜合度和kmer分布圖之間的關系,可以通過kmer分布來評估雜合度。
GenomeScope 軟件可以根據kmer分布,評估基因組大小和雜合度,github地址如下
https://github.com/schatzlab/genomescope
安裝過程也比較簡單,直接下載就可以了
git clone https://github.com/schatzlab/genomescope
在軟件的安裝目錄下,genomescopre.R
文件是核心的運行腳本,用法如下
Rscript genomescope.R kmer.hist 31 150 test
第一個參數 kmer.hist 是jellyfish軟件產生的kmer頻數分布數據,第二個參數31代表kmer的長度,第三個參數150代表序列讀長,第四個參數test 代表輸出目錄的名稱。
在運行過程中,會輸出如下信息
GenomeScope analyzing kmer_hist k=31 readlen=150 outdir=test
Model converged het:0.0236 kcov:21.7 err:0.00575 model fit:2.21 len:67340147
het
表示雜合度,為2.36%;len
表示基因組大小,為67M左右。輸出目錄文件列表如下
├── model.txt
├── plot.log.png
├── plot.png
├── progress.txt
└── summary.txt
通常關注summary.txt,plot.png 這2個文件就可以了。
1. summary.txt
內容如下:
GenomeScope version 1.0 k = 31 property min max Heterozygosity 2.3105% 2.40497% Genome Haploid Length 66,465,582 bp 67,340,147 bp Genome Repeat Length 49,595,265 bp 50,247,848 bp Genome Unique Length 16,870,317 bp 17,092,300 bp Model Fit 80.781% 94.5621% Read Error Rate 0.574733% 0.574733%
在該文件中,會給出雜合度,基因組大小。重復片段長度等詳細信息。
2. plot.png
示意圖如下:
藍色區域是實際觀測到的kmer分布,紅色線條下方是一些頻數很低的kmer,這些kmer被認為是測序錯誤,黑色線條下方被認為是可靠的kmer數據,只拿這部分數據來評估基因組的大小,垂直的虛線認為是kmer的幾個峰值,黃色線條下方的區域認為是非重復區域的大小。
雜合度,大多數真核生物有兩個匹配的染色體組 ; 也就是說,它們是二倍體。二倍體生物在其兩組同源染色體中的每一個上具有相同的基因座,除了在一對配對中的兩個染色體之間這些基因座上的序列可能不同之外,並且作為染色體性別決定系統的一部分,一些染色體可能會錯配。如果二倍體生物的兩個等位基因相同,則該生物在該位點是純合的。如果它們不同,則該生物體在該基因座處是雜合的。
當兩個同源染色體上的基因的等位基因相同時,該細胞被認為是一個特定基因的純合子。[2]有問題的細胞或生物稱為純合子。真正的繁殖生物對於保持不變的性狀總是純合的
當二倍體生物體的細胞包含一個基因的兩個不同等位基因(一個野生型等位基因和一個突變等位基因)時,它在基因座處是雜合的。細胞或有機體被稱為雜合子, 專門用於所討論的等位基因,因此,雜合性是指特定的基因型。雜合基因型由大寫字母(代表顯性/野生型等位基因)和小寫字母(代表隱性/突變等位基因)表示,例如“ Rr”或“ Ss”。或者,假定基因“ R”的雜合子為“ Rr”。大寫字母通常是首先寫的。 如果所討論的特征由簡單(完全)優勢決定,則雜合子將僅表達由顯性等位基因編碼的特征,而由隱性等位基因編碼的特征將不存在。在更復雜的支配方案中,雜合性的結果可能更復雜。 雜合基因型可以比純合顯性基因型或純合隱性基因型具有更高的相對適應度-這被稱為雜合子優勢。
(1)基因組大小的獲取關系到對以后組裝結果的大小的正確與否判斷;基因組太大(>10Gb),可能會超出了目前denovo組裝基因組軟件的對機器存 的要求,從客觀條件上講是無法實現組裝的。一般物種的基因組大小可以從公共數據庫查到。如果沒有搜錄,需要考慮通過實驗(流式細胞儀福爾根 染色/定量pcr/)或Kmer估計法來獲得基因組大小。
(2)雜合度對基因組組裝的影響主要體現在不能合並姊妹染色體,雜合度高的區域,會把兩條姊妹染色單體都組裝出來,從而造成組裝的基因組偏 大於實際的基因組大小。一般是通過SSR在測序親本的子代中檢查SSR的多態性。雜合度如果高於0.5%,則認為組裝有一定難度。雜合度高於1%則很難 組裝出來。雜和度估計一般通過kmer分析來做,降低雜合度可以通過很多代近交來實現。雜合度高,並不是說組裝不出來,而是說,裝出來的序列不 適用於后續的生物學分析。比如拷貝數、基因完整結構。
張紹鈴團隊於2012年成功組裝了世界第一個梨基因組。本研究在梨基因組測序的基礎上,利用12個花粉單細胞對所構建的3.8萬條人工染色體(BAC)進行單倍型分型,並成功組裝了兩套單倍型基因組,該方法被命名為Bar-coding。論文共同第一作者、南京農業大學教授吳俊介紹,他們通過這種方法鑒定出了原參考基因組中8.12%的由於雜合引起的嵌合組裝基因,並對所測定基因組(碭山酥梨)兩個倍型之間的差異進行了系統性分析。
麥谷(如面包小麥,硬質小麥,大麥和黑麥等)是歐洲重要的社會經濟作物。麥谷基因組高度復雜且大小不等,范圍可從大麥的~5Gb到面包小麥的~16Gb,基因組中DNA重復比例龐大,可高達85%-90%。正因如此,麥谷的參考基因組直到最近才完成,並且得到參考基因組並不完整,僅代表了真實基因組大小的88%-98%。那么這些缺失部分的組成是什么呢?
已知大型的重復序列區域一直是基因組測序和組裝的挑戰,並且會導致大多數基因組序列中產生缺口、錯誤組裝和串聯重復的壓縮。來自捷克的科學家Veronika Kapustová等人對兩種麥谷基因組了進行研究,目的在於發現基因組中的缺失部分,並找到可以改善和提高大型基因組組裝的測序技術。他們重點關注了短讀長測序技術無法很好組裝的長串聯重復序列(tandem repeats)。研究結果顯示,在使用短讀長序列生成的面包小麥參考基因組中,作者發現了3個串聯重復序列,長度范圍為1167bp到2726bp。其中一個單位大小為2726bp的重復區域,其基因組序列只能在添加來自帶有該重復序列的兩個BAC克隆的納米孔測序的信息以及光學作圖以后才得以解決。使用納米孔測序,作者鑒定並定位了大麥參考基因組中缺失的長達470kb的45S核糖體DNA陣列。
來源:
https://www.jianshu.com/p/98f5a65be8b2
https://en.wikipedia.org/wiki/Zygosity
https://www.cnblogs.com/renping/p/7156251.html
http://mini.eastday.com/a/191105184453711.html
https://www.sohu.com/a/323356168_732029