FusionMap 檢測融合基因


定義:融合基因是指兩個或者多個基因聯合起來,一起轉錄形成一個轉錄本;

檢測的意義:融合基因可以作為某些疾病的特異分子標記,比如

  bcr/abl融合基因存在於95%以上的慢性粒細胞白血病患者中;

  AML1/ETO融合基因主要見於急性粒細胞白血病部分分化型患者中;

  CBFβ/MYH11融合基因是M4Eo型白血病的分子標志;

  PML/RARα融合基因是急性早幼粒細胞白血病(APL)的分子標志;

檢測方法:

  只有少數的融合基因是因為染色體易位等原因,在DNA水平上聯合在一起,而大多數的融合基因在DNA水平上並沒有真正的融合在一起,只是在轉錄的時候共同轉錄而已,

所以通常利用RNA-seq來研究融合基因;只要檢測到一個轉錄本來源於不同的基因,就可以識別出融合基因;

  fusionMap 可以利用RNA_seq的數據來檢測融合基因,http://www.arrayserver.com/wiki/index.php?title=FusionMap

原理:

  

  通過兩種方式來檢測融合基因:

  1) 對於沒有mapping 上的基因組的unmapped reads, 通過識別 Fusion junction-spanning reads 來識別融合基因;這部分reads 在mapping的時候由於插入缺失的限制,沒有能夠mapping 上任何一個基因;

  2)對於mapping 上基因組的reads, 通過識別 Inter-transcript read pairs 來識別融合基因,這部分reads 的R1端和R2端分別mapping 到不同的基因

 

 

  在fusionmap 中,假定融合基因由2個基因組成,對於沒能比對上基因組的Fusion Junction-spanning reads, 又分為兩類:設定一個閾值,如果這條reads 在兩個基因中比對上的長度都大於閾值,就屬於seed reads; 如果在任意一個基因中比對上的長度小於閾值,就屬於Rescued reads;

安裝:

  由於fusionmap 是一個在windows 平台上開發的一個.exe 文件,為了能夠在linux 平台上運行,需要安裝mono 這個軟件,就用官網推薦的版本就可以

  下載fusinomap 安裝包,下載物種對應的數據庫

測試:

  

結果:

  

  FusionID : 識別到的融合基因的ID,前綴都為FUS,第一個數字為融合基因的起始位置,第二個數字為融合基因的終止位置,這里的位置實際上都是累積位置,把所有的染色體按照字母順序首位相連構成一條參照的染色體,這樣每個基因在這條染色體上都有一個位置,所以這里的位置都是累積位置,可以發現,終止位置的數字總是比起始位置大;括號里的內容是形成融合基因的兩個基因的鏈的方向

  Strand : 形成融合基因的兩個基因的鏈的方向, 包括++, --, +-, -+ 四種組合

  Position1: 檢測到的融合基因的起始位置

  Chromosome1 : gene1 所在的染色體

  Chromsome2: gene2 所在的染色體

  Position2: 檢測到的融合基因的終止位置

  knowGene1 : gene1 的symbol

  KnowTranscriptStrand: gene1的轉錄本的方向,有多個轉錄本,就有多個方向

  KnowGene2: gene2 的symbol

  KnowTranscripitStrand : gene2的轉錄本的方向,有多個轉錄本,就有多個方向

  FusionGene: 融合基因的名字,有gene1->gene2

  SplicePattern: 剪切模式,在融合基因的斷點處的剪切模式,GT-AG, 在真核生物中存在可變剪切,不同物種間的exon之間的剪切位點是保守的,fusionmap 通過識別剪切位點作為融合基因的breakpoint, 還有其他幾種常見的剪切模式,比如GC-AG,AT-AC

  在fusionmap 的輸出結果中,還會給出accepted_hits.FusionReads.bam 文件,這個文件記錄了fusionmap 識別到的融合基因的reads, 舉一個具體的例子:

  以FUS_10436924_1077001566(++) 融合基因為例,對應的bam文件中的內容為:

  

ST-E00169:303:HC7LFALXX:3:2109:11921:42147	67	1	10436820	60	106M22S	17	7952031	0	CTCTTTTCTTTTTTCTTGTGCTGAGAATCTCGTTAGTAGCATGTGGCCTAACAAAAGGAAAAAATGTTTTTAAACACACACACACACACACACACACACACACACACATATACACACACAAAAACAGA	AAFFFJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJFJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJFJJJAFJJ<FJJFJ<JAF-A	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Seed
ST-E00169:303:HC7LFALXX:3:2112:29680:36451	179	1	10436895	60	31M9S	17	7952031	0	ACACACACACACACACACACACACACACACACATACACAC	F7<JJJJF<JFJJJJFFJJJFJJJFJJJJFFJJFFFAAAA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:1224:28270:28206	179	1	10436898	60	28M12S	17	7952031	0	CACACACACACACACACACACACACACACATACACACACA	JJJJJJJJJJJFJFJJJJJJJJJJJJJJJJJFJFJFFAAA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2124:27681:49267	179	1	10436898	60	28M12S	17	7952031	0	CACACACACACACACACACACACACACACATACACACACA	JJJJJJJJJJFFJJJJJJJJJJJJJJJJJJJFJAJFA-AA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:1209:27651:10503	179	1	10436900	60	26M12S	17	7952031	0	CACACACACACACACACACACACACACATACACACACA	F-JFFFJJF<JJJJJJJJJJJJJJJJJJJFJJJFFAAA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2208:30036:65968	179	1	10436900	60	26M12S	17	7952031	0	CACACACACACACACACACACACACACATACACACACA	JJJJJJJJFJJJJJJJJJJJJJJJJJJJJFJJJFFFAA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2209:4026:58848	179	1	10436900	60	26M12S	17	7952031	0	CACACACACACACACACACACACACACATACACACACA	JAJFJJJJF<JJJFJJJJJJJJJJJJJJJJJ<JFFFAA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2110:31020:2452	179	1	10436901	60	25M9S	17	7952031	0	ACACACACACACACACACACACACACATACACAC	JJJJJJJJJJJJJJJJJJJJFJJJJJJFJFFAAA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2219:23632:11664	179	1	10436904	60	22M12S	17	7952031	0	CACACACACACACACACACACACATACACACACA	JJJJJJJJJJJJJJJFJJJJJJJJJJJJJFFAAA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2109:11921:42147	131	17	7952031	30	106S22M	1	10436820	0	CTCTTTTCTTTTTTCTTGTGCTGAGAATCTCGTTAGTAGCATGTGGCCTAACAAAAGGAAAAAATGTTTTTAAACACACACACACACACACACACACACACACACACATATACACACACAAAAACAGA	AAFFFJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJFJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJFJJJAFJJ<FJJFJ<JAF-A	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Seed
ST-E00169:303:HC7LFALXX:3:1209:27651:10503	115	17	7952031	60	26S12M	1	10436900	0	CACACACACACACACACACACACACACATACACACACA	F-JFFFJJF<JJJJJJJJJJJJJJJJJJJFJJJFFAAA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:1224:28270:28206	115	17	7952031	60	28S12M	1	10436898	0	CACACACACACACACACACACACACACACATACACACACA	JJJJJJJJJJJFJFJJJJJJJJJJJJJJJJJFJFJFFAAA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2110:31020:2452	115	17	7952031	60	25S9M	1	10436901	0	ACACACACACACACACACACACACACATACACAC	JJJJJJJJJJJJJJJJJJJJFJJJJJJFJFFAAA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2112:29680:36451	115	17	7952031	60	31S9M	1	10436895	0	ACACACACACACACACACACACACACACACACATACACAC	F7<JJJJF<JFJJJJFFJJJFJJJFJJJJFFJJFFFAAAA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2124:27681:49267	115	17	7952031	60	28S12M	1	10436898	0	CACACACACACACACACACACACACACACATACACACACA	JJJJJJJJJJFFJJJJJJJJJJJJJJJJJJJFJAJFA-AA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2208:30036:65968	115	17	7952031	60	26S12M	1	10436900	0	CACACACACACACACACACACACACACATACACACACA	JJJJJJJJFJJJJJJJJJJJJJJJJJJJJFJJJFFFAA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2209:4026:58848	115	17	7952031	60	26S12M	1	10436900	0	CACACACACACACACACACACACACACATACACACACA	JAJFJJJJF<JJJFJJJJJJJJJJJJJJJJJ<JFFFAA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2219:23632:11664	115	17	7952031	60	22S12M	1	10436904	0	CACACACACACACACACACACACATACACACACA	JJJJJJJJJJJJJJJFJJJJJJJJJJJJJFFAAA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued

  這里實際上保存的是fusionmap 識別到的融合基因的reads, 比如 ST-E00169:303:HC7LFALXX:3:2109:11921:42147 這條reads 的比對出現了兩次,第一次比對到染色體1 上,比對情況為106M22S, 就是說這條reads 的前106bp 比對到染色體1上,比對上的起始位置為10432860; 第二次比對到染色體17上,比對情況為106S22M,就是說這條reads的后22bp比對到染色體17上,比對上的起始位置為7952031,由於在兩個基因上的比對長度一個為106,一個為22,都超過了預先設定的最小比對長度,所以認為該reads 為Seed reads, 根據這個比對情況,我們就可以認為檢測到了一個融合基因,由1號染色體和17號染色體上的兩個基因共同轉錄生成了一個轉錄本;

  其他reads的比對情況也是一樣的道理,可以發現,識別到的某個融合基因的breakpoint的位置是固定的,對於一個融合基因,只有識別到兩條以上的reads支持該融合基因時,才認為檢測到的是一個真實的融合基因,可以通過reads 比對的起始位置和終止位置來判斷,如果起始位置和終止位置相同,則可能為相同模板的PCR 產物, 只能算作1條;只有起始和終止位置不同時,才可以算作不同的reads, 在fusionmap 輸出的報告文件中,還有幾列保存了這些信息;

  accepted_hits.UniqueCuttingPositionCount : unique cut 的次數,和上面說的支持融合基因的reads數目是一個道理,實驗時將轉錄本隨機打斷進行測序,只有存在多個打斷的位置,才會出現多條支持該融合基因的reads, 這個數字越大,證明該融合基因的准確度越高;

  

     黑色的線條是真實存在的融合基因形成的轉錄本,灰色的fragment是隨機打斷該轉錄本生成的序列,紅色為融合基因對應的breakpoint,圖中一共4條reads, 但是中間的2條reads 位置相同,可能是PCR 重復,所以實際上只能說有3條reads 支持該融合基因;fusinomap 在統計reads 數目的時候,實際上只看在第二個基因中的終止位置是否相同來判斷,對於例子中的融合基因,報告中的值是3

  accepted_hits.SeedCount      : Seed reads 的個數

  accepted_hits.RescuedCount : Rescude reeds 的個數

     SplicePattern : fusionmap 會識別融合基因的breakpoint 處的剪切模式,並對其進行分類,GA-TC這樣的剪切模式是最常見的,類型為CanonicalPatter[Major],接下來比較常見的是GC-AG 和 AT-AC, 類型為CanonicalPatter[Minor], 對於其他的剪切模式,一般不常見,類型為NonCanonicalPatter;如果一個融合基因的breakpoint 處的剪切模式越常見,則檢測到的該融合基因為真實存在的融合基因的可能信越大

  Frameshift:  breakpoint 處的密碼子框的類型,3個鹼基構成一個密碼子,標記為0,1,2, 示意圖如下:

  

   

    FrameshiftClass: 上述幾種常見的Frameshift 都歸為In-Frame, 其他類型為 Frame-Shift;

    OnExonBoundary: 融合基因的breakpoint 是否位於基因的外顯子的邊界,一共有三種類型,None, Single, Both

    Distance : 融合基因的breakpoint 在兩個基因之間的距離,如果兩個基因位於不同的染色體,值為-1;

 

 

  

  

  

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM