定義:融合基因是指兩個或者多個基因聯合起來,一起轉錄形成一個轉錄本;
檢測的意義:融合基因可以作為某些疾病的特異分子標記,比如
bcr/abl融合基因存在於95%以上的慢性粒細胞白血病患者中;
AML1/ETO融合基因主要見於急性粒細胞白血病部分分化型患者中;
CBFβ/MYH11融合基因是M4Eo型白血病的分子標志;
PML/RARα融合基因是急性早幼粒細胞白血病(APL)的分子標志;
檢測方法:
只有少數的融合基因是因為染色體易位等原因,在DNA水平上聯合在一起,而大多數的融合基因在DNA水平上並沒有真正的融合在一起,只是在轉錄的時候共同轉錄而已,
所以通常利用RNA-seq來研究融合基因;只要檢測到一個轉錄本來源於不同的基因,就可以識別出融合基因;
fusionMap 可以利用RNA_seq的數據來檢測融合基因,http://www.arrayserver.com/wiki/index.php?title=FusionMap
原理:
通過兩種方式來檢測融合基因:
1) 對於沒有mapping 上的基因組的unmapped reads, 通過識別 Fusion junction-spanning reads 來識別融合基因;這部分reads 在mapping的時候由於插入缺失的限制,沒有能夠mapping 上任何一個基因;
2)對於mapping 上基因組的reads, 通過識別 Inter-transcript read pairs 來識別融合基因,這部分reads 的R1端和R2端分別mapping 到不同的基因
在fusionmap 中,假定融合基因由2個基因組成,對於沒能比對上基因組的Fusion Junction-spanning reads, 又分為兩類:設定一個閾值,如果這條reads 在兩個基因中比對上的長度都大於閾值,就屬於seed reads; 如果在任意一個基因中比對上的長度小於閾值,就屬於Rescued reads;
安裝:
由於fusionmap 是一個在windows 平台上開發的一個.exe 文件,為了能夠在linux 平台上運行,需要安裝mono 這個軟件,就用官網推薦的版本就可以
下載fusinomap 安裝包,下載物種對應的數據庫
測試:
結果:
FusionID : 識別到的融合基因的ID,前綴都為FUS,第一個數字為融合基因的起始位置,第二個數字為融合基因的終止位置,這里的位置實際上都是累積位置,把所有的染色體按照字母順序首位相連構成一條參照的染色體,這樣每個基因在這條染色體上都有一個位置,所以這里的位置都是累積位置,可以發現,終止位置的數字總是比起始位置大;括號里的內容是形成融合基因的兩個基因的鏈的方向
Strand : 形成融合基因的兩個基因的鏈的方向, 包括++, --, +-, -+ 四種組合
Position1: 檢測到的融合基因的起始位置
Chromosome1 : gene1 所在的染色體
Chromsome2: gene2 所在的染色體
Position2: 檢測到的融合基因的終止位置
knowGene1 : gene1 的symbol
KnowTranscriptStrand: gene1的轉錄本的方向,有多個轉錄本,就有多個方向
KnowGene2: gene2 的symbol
KnowTranscripitStrand : gene2的轉錄本的方向,有多個轉錄本,就有多個方向
FusionGene: 融合基因的名字,有gene1->gene2
SplicePattern: 剪切模式,在融合基因的斷點處的剪切模式,GT-AG, 在真核生物中存在可變剪切,不同物種間的exon之間的剪切位點是保守的,fusionmap 通過識別剪切位點作為融合基因的breakpoint, 還有其他幾種常見的剪切模式,比如GC-AG,AT-AC
在fusionmap 的輸出結果中,還會給出accepted_hits.FusionReads.bam 文件,這個文件記錄了fusionmap 識別到的融合基因的reads, 舉一個具體的例子:
以FUS_10436924_1077001566(++) 融合基因為例,對應的bam文件中的內容為:
ST-E00169:303:HC7LFALXX:3:2109:11921:42147 67 1 10436820 60 106M22S 17 7952031 0 CTCTTTTCTTTTTTCTTGTGCTGAGAATCTCGTTAGTAGCATGTGGCCTAACAAAAGGAAAAAATGTTTTTAAACACACACACACACACACACACACACACACACACATATACACACACAAAAACAGA AAFFFJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJFJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJFJJJAFJJ<FJJFJ<JAF-A ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Seed ST-E00169:303:HC7LFALXX:3:2112:29680:36451 179 1 10436895 60 31M9S 17 7952031 0 ACACACACACACACACACACACACACACACACATACACAC F7<JJJJF<JFJJJJFFJJJFJJJFJJJJFFJJFFFAAAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued ST-E00169:303:HC7LFALXX:3:1224:28270:28206 179 1 10436898 60 28M12S 17 7952031 0 CACACACACACACACACACACACACACACATACACACACA JJJJJJJJJJJFJFJJJJJJJJJJJJJJJJJFJFJFFAAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued ST-E00169:303:HC7LFALXX:3:2124:27681:49267 179 1 10436898 60 28M12S 17 7952031 0 CACACACACACACACACACACACACACACATACACACACA JJJJJJJJJJFFJJJJJJJJJJJJJJJJJJJFJAJFA-AA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued ST-E00169:303:HC7LFALXX:3:1209:27651:10503 179 1 10436900 60 26M12S 17 7952031 0 CACACACACACACACACACACACACACATACACACACA F-JFFFJJF<JJJJJJJJJJJJJJJJJJJFJJJFFAAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued ST-E00169:303:HC7LFALXX:3:2208:30036:65968 179 1 10436900 60 26M12S 17 7952031 0 CACACACACACACACACACACACACACATACACACACA JJJJJJJJFJJJJJJJJJJJJJJJJJJJJFJJJFFFAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued ST-E00169:303:HC7LFALXX:3:2209:4026:58848 179 1 10436900 60 26M12S 17 7952031 0 CACACACACACACACACACACACACACATACACACACA JAJFJJJJF<JJJFJJJJJJJJJJJJJJJJJ<JFFFAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued ST-E00169:303:HC7LFALXX:3:2110:31020:2452 179 1 10436901 60 25M9S 17 7952031 0 ACACACACACACACACACACACACACATACACAC JJJJJJJJJJJJJJJJJJJJFJJJJJJFJFFAAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued ST-E00169:303:HC7LFALXX:3:2219:23632:11664 179 1 10436904 60 22M12S 17 7952031 0 CACACACACACACACACACACACATACACACACA JJJJJJJJJJJJJJJFJJJJJJJJJJJJJFFAAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued ST-E00169:303:HC7LFALXX:3:2109:11921:42147 131 17 7952031 30 106S22M 1 10436820 0 CTCTTTTCTTTTTTCTTGTGCTGAGAATCTCGTTAGTAGCATGTGGCCTAACAAAAGGAAAAAATGTTTTTAAACACACACACACACACACACACACACACACACACATATACACACACAAAAACAGA AAFFFJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJFJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJFJJJAFJJ<FJJFJ<JAF-A ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Seed ST-E00169:303:HC7LFALXX:3:1209:27651:10503 115 17 7952031 60 26S12M 1 10436900 0 CACACACACACACACACACACACACACATACACACACA F-JFFFJJF<JJJJJJJJJJJJJJJJJJJFJJJFFAAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued ST-E00169:303:HC7LFALXX:3:1224:28270:28206 115 17 7952031 60 28S12M 1 10436898 0 CACACACACACACACACACACACACACACATACACACACA JJJJJJJJJJJFJFJJJJJJJJJJJJJJJJJFJFJFFAAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued ST-E00169:303:HC7LFALXX:3:2110:31020:2452 115 17 7952031 60 25S9M 1 10436901 0 ACACACACACACACACACACACACACATACACAC JJJJJJJJJJJJJJJJJJJJFJJJJJJFJFFAAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued ST-E00169:303:HC7LFALXX:3:2112:29680:36451 115 17 7952031 60 31S9M 1 10436895 0 ACACACACACACACACACACACACACACACACATACACAC F7<JJJJF<JFJJJJFFJJJFJJJFJJJJFFJJFFFAAAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued ST-E00169:303:HC7LFALXX:3:2124:27681:49267 115 17 7952031 60 28S12M 1 10436898 0 CACACACACACACACACACACACACACACATACACACACA JJJJJJJJJJFFJJJJJJJJJJJJJJJJJJJFJAJFA-AA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued ST-E00169:303:HC7LFALXX:3:2208:30036:65968 115 17 7952031 60 26S12M 1 10436900 0 CACACACACACACACACACACACACACATACACACACA JJJJJJJJFJJJJJJJJJJJJJJJJJJJJFJJJFFFAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued ST-E00169:303:HC7LFALXX:3:2209:4026:58848 115 17 7952031 60 26S12M 1 10436900 0 CACACACACACACACACACACACACACATACACACACA JAJFJJJJF<JJJFJJJJJJJJJJJJJJJJJ<JFFFAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued ST-E00169:303:HC7LFALXX:3:2219:23632:11664 115 17 7952031 60 22S12M 1 10436904 0 CACACACACACACACACACACACATACACACACA JJJJJJJJJJJJJJJFJJJJJJJJJJJJJFFAAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
這里實際上保存的是fusionmap 識別到的融合基因的reads, 比如 ST-E00169:303:HC7LFALXX:3:2109:11921:42147 這條reads 的比對出現了兩次,第一次比對到染色體1 上,比對情況為106M22S, 就是說這條reads 的前106bp 比對到染色體1上,比對上的起始位置為10432860; 第二次比對到染色體17上,比對情況為106S22M,就是說這條reads的后22bp比對到染色體17上,比對上的起始位置為7952031,由於在兩個基因上的比對長度一個為106,一個為22,都超過了預先設定的最小比對長度,所以認為該reads 為Seed reads, 根據這個比對情況,我們就可以認為檢測到了一個融合基因,由1號染色體和17號染色體上的兩個基因共同轉錄生成了一個轉錄本;
其他reads的比對情況也是一樣的道理,可以發現,識別到的某個融合基因的breakpoint的位置是固定的,對於一個融合基因,只有識別到兩條以上的reads支持該融合基因時,才認為檢測到的是一個真實的融合基因,可以通過reads 比對的起始位置和終止位置來判斷,如果起始位置和終止位置相同,則可能為相同模板的PCR 產物, 只能算作1條;只有起始和終止位置不同時,才可以算作不同的reads, 在fusionmap 輸出的報告文件中,還有幾列保存了這些信息;
accepted_hits.UniqueCuttingPositionCount : unique cut 的次數,和上面說的支持融合基因的reads數目是一個道理,實驗時將轉錄本隨機打斷進行測序,只有存在多個打斷的位置,才會出現多條支持該融合基因的reads, 這個數字越大,證明該融合基因的准確度越高;
黑色的線條是真實存在的融合基因形成的轉錄本,灰色的fragment是隨機打斷該轉錄本生成的序列,紅色為融合基因對應的breakpoint,圖中一共4條reads, 但是中間的2條reads 位置相同,可能是PCR 重復,所以實際上只能說有3條reads 支持該融合基因;fusinomap 在統計reads 數目的時候,實際上只看在第二個基因中的終止位置是否相同來判斷,對於例子中的融合基因,報告中的值是3
accepted_hits.SeedCount : Seed reads 的個數
accepted_hits.RescuedCount : Rescude reeds 的個數
SplicePattern : fusionmap 會識別融合基因的breakpoint 處的剪切模式,並對其進行分類,GA-TC這樣的剪切模式是最常見的,類型為CanonicalPatter[Major],接下來比較常見的是GC-AG 和 AT-AC, 類型為CanonicalPatter[Minor], 對於其他的剪切模式,一般不常見,類型為NonCanonicalPatter;如果一個融合基因的breakpoint 處的剪切模式越常見,則檢測到的該融合基因為真實存在的融合基因的可能信越大
Frameshift: breakpoint 處的密碼子框的類型,3個鹼基構成一個密碼子,標記為0,1,2, 示意圖如下:
FrameshiftClass: 上述幾種常見的Frameshift 都歸為In-Frame, 其他類型為 Frame-Shift;
OnExonBoundary: 融合基因的breakpoint 是否位於基因的外顯子的邊界,一共有三種類型,None, Single, Both
Distance : 融合基因的breakpoint 在兩個基因之間的距離,如果兩個基因位於不同的染色體,值為-1;