Est--編碼序列,gene 片段且具有標簽
其中,est數據庫中是類似測序1、測序2、測序3這樣的序列。實驗室測得的序列是cDNA,通過上圖方法拼接,電腦克隆(dbest)。如果有overlap則認為兩個序列來自於同一個gene,overlap的鹼基數目是40(不建議低於30,不建議高於40),過少容易拼接亂,過多對鹼基突變的容忍性差。就一條序列來說,將比對后延長的結果進行二次比對,以此類推,直到不能延長為止。
est數據庫的覆蓋率超過95%。
先利用其他數據庫(eg:引物數據庫、末端數據庫)過濾一遍。即因此在進行Contig電腦組裝之前,需要探測並去除EST數據庫中的污染序列。
拼接質檢方法:Kozak規則,即第一個ATG側翼序列的鹼基分布所滿足的統計規律,若將第一個ATG中的鹼基A,T,G分別標為1,2,3位,則Kozak規則可描述如下:(1)第4位的偏好鹼基為G;(2)ATG的5’端約15bp范圍的側翼序列內不含鹼基T;(3)在-3,-6和-9位置。
挑戰:
嵌合體問題:基因家族內的gene相似度高,電腦克隆的閾值不足以區分,miss之后將兩個不同位置的gene弄混。這需要實驗驗證。嵌合體cDNA是指來源於不同基因的序列,由於偶然因素被組裝在一起形成的Contig。我們構建的神經網絡能探測組裝過程形成的嵌合體。
發現SNP:對於某一個gene出現多個略有差別的序列,着多個序列中可能存在SNP。
利用何種數據庫發現新基因?
基因組序列數據庫和EST數據庫。
發現原理是什么?
基因組序列數據庫是識別,識別編碼序列特征和非編碼序列有何差異,有多種算法。
EST數據庫是拼接,歸屬於同一gene的est拼接在一起,算法比較單一。
使用EST序列裝載gene,可以幫助發現新gene、SNP、可變剪接和發現非編碼RNA。