CIRI 根據circRNA 連接點處的reads來識別circRNA, 在連接點處的reads 其比對情況非常特殊;
CIRI 根據3種模型來識別circRNA, 連接點處的read 叫做junction read
A)
circRNA 由3個外顯子環化形成, 由於測序讀長的限制,junction read 只覆蓋了起始外顯子和終止外顯子的部分序列,這兩部分reads的比對位置在基因組上的位置是相反的,
B)
circRNA 由3個外顯子環化形成, 由於連接點處的一個外顯子其長度太短,junction read 除了覆蓋了起始外顯子和終止外顯子的兩部分序列外,還覆蓋了中間的一個外顯子的部分序列
C)
circRNA 由1個外顯子環化形成, junction read 除了覆蓋了整個外顯子外,還重復又讀了一部分序列
D)
為了進一步降低假陽性率,CIRI 通過以下3條規則對結果進行過濾:
1)雙端測序的兩條reads 必須符合PEM 信號,以上面的示意圖為例,進行說明
read1 是一條junction read, 來源於兩個外顯子,根據read1 的比對情況,確定了circRNA 在基因組上的位置,此時,如果這個circRNA 識別准確,那么read2 就肯定落在對應的位置內;
根據兩條reads的比對情況,進一步過濾結果;
2) 檢測到的circRNA 的連接處符合AG-GT 剪切信號;
3)根據比對的質量和數量進行過濾,質量就是說mapping 的質量越高,識別的circRNA 越准確;數量就是說對於某個circRNA來說,檢測到的juntion reads 越多,說明這個circRNA越可靠;
上面圖中的幾種模型只是幫助我們理解了exonic-circRNA的檢測,其實對於non-exonic circRNA(包括intronic circRNA 和 intergenic circRNA)的檢測,其原理是相似的,只是綜合考慮了測序讀長和連接點兩段序列的長度,提出幾種可能的比對模型,然后根據比對模型來檢測對應的junction reads, 從而預測circRNA;
circRNA 結果的驗證:
以一個預測得到的circRNA chr2: 58,311,224|58,316,858 為例,在基因組上的長度為 5634bp, 其連接點為VRK2基因的exon6和exon10
理論上產生的circRNA的序列為所有外顯子組成的序列,splicing length為407bp
為了驗證該circRNA , 根據連接點兩端的序列設計引物,擴增出該circRNA 片段,跑電泳,確定產物長度
圖中的黑色片段為擴增產物的條帶,根據PAGE 電泳的結果,確定其長度;然后進行一代測序,確定具體序列
參考文獻:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-014-0571-3