
上次給大家總結介紹了基因組單核苷酸多態性(single nucleotide polymorphism,SNP)的鑒定方法,今天給大家介紹結構變異(structural variations,SV)的種類及基於基因組測序數據的鑒定方法。
因為結構變異是造成物種表型差異的一個重要原因,且與各類疾病,特別是癌症的發生、發展緊密相關,因此研究結構變異非常重要。
結構變異通常是指長度大於1Kb的基因組序列變異,包括多種不同的類型:插入(insertion)、缺失(deletion)、反轉(inversion)、異位(translocation)、拷貝數變異(copy number variation,CNV或者duplication)(更多精彩請關注微信公眾號:AIPuFuBio)。
具體如下示意圖所示:

以前,芯片(array)是檢測全基因組范圍結構變異非常流行的手段,但現在隨着測序價格的不斷下降,以及測序技術的優勢(特別是單鹼基分辨率),全基因組測序已成為檢測全基因組范圍內結構變異的首選。
下面給大家逐一介紹一下基於基因組測序數據檢測結構變異的四大類方法:
1. paired-end mapping (PEM),基於雙端測序讀段匹配;
2. split read mapping (SRM),基於read分割匹配;
3. depth of coverage (DOC),基於read的覆蓋度;
4. assembly-based approach (ASA),基於組裝的方法;
具體如下圖所示:

從上圖中可以看出,這四大類方法並不是適合所有類型的基因組結構變異檢測,其中:
1. 基於Read pair,即基於雙端測序讀段匹配(paired-end mapping)的方法,適用於所有類型的基因組結構變異檢測;
2. 基於Read depth,即基於read的覆蓋度(depth of coverage,DOC),主要適用於缺失(deletion)和duplication(重復或拷貝數變異)這兩大類型的結構結構變異檢測;
3. 基於Split read,即基於read分割匹配(split read mapping,SRM),這種方法也適合於所有類型的基因組結構變異檢測;
4. 基於Assembly,即基於組裝的方法(assembly-based approach,ASA),這種方法也適合於所有類型的基因組結構變異檢測;
雖然這四類方法可以用於檢測不同類型基因組結構變異,但每種檢測方法都有各自的優缺點。具體體現在不同方法的檢測精度、可檢測結構變異的大小范圍、還有復雜度等有一定的區別。
如雖然四類方法都可檢測拷貝數變異(copy number variation,CNV),但各類方法的檢測准確性和可檢測的CNV大小是有明顯差別的,具體如下圖所示:

由上圖可知,四類方法在檢測CNV時,它們的檢測准確性和可檢測的CNV大小明顯不同。其中基於read的覆蓋度(depth of coverage,DOC)的方法雖然可檢測比較大的CNV,但其檢測精度較低,而基於read分割匹配(split read mapping,SRM)的方法雖然檢測CNV的精度高,但檢測的CNV長度通常偏小。
所以,這四類方法在檢測基因組結構變異時有各自的長項和短處,是相互補的,可以聯合起來使用,以提高結構變異檢測范圍和精度。
那么檢測各類結構變異比較好的軟件或工具有哪些呢?下圖列出了一些性能比較好的結構變異檢測軟件,具體如下所示:

總的來說,不同軟件或算法在檢測結構變異時,它們的檢測准確性主要依賴於檢測的結構變異類型和結構變異的大小,而且不同軟件有各自的強項和弱項,聯合使用不同的方法可有效提高檢測結構變異的精度和覆蓋更廣的結構變異長度范圍。(更多精彩,可見大型免費綜合生物信息學資源和工具平台AIPuFu:www.aipufu.com,關注微信公眾號:AIPuFuBio)。
希望今天的內容對大家有用,會持續更新經典內容,歡迎留言~~!