目前人們對lncRNA認識還處在初級階段,lncRNA起初被認為是基因組轉錄的“噪音”,是RNA聚合酶II轉錄的副產物,不具有生物學功能。然而大量研究表明,lncRNA在細胞核內、核外,通過染色質修飾,轉錄調控,轉錄后調控等多種方式調節基因表達,在腫瘤發生發展中具有重要作用。
一般來說,lncRNA功能研究的主線包含3個主要步驟:
(1)高通量篩選。全轉錄組測序和lncRNA芯片是目前最常用的技術手段,通過這種高通量的篩選方法,可以快速獲得不同實驗組間差異表達的lncRNA和mRNA。
(2)候選lncRNA的確定。通過生物信息學分析,從大量lncRNA 中篩選有潛在功能意義的lncRNA。
(3)目標lncRNA的功能分析與驗證。根據上述生物信息分析推斷出lncRNA可能的生物學功能,並設計相應的實驗來驗證假設是否成立。
編碼能力預測以鑒別novel mRNA和lncRNA:
分別用CPC,CNCI,PfamScan三個軟件來對novel transcript序列做編碼能力預測
我們選取主流的三個預測軟件官網:
PfamScan:http://pfam.xfam.org/
CPC:http://cpc.cbi.pku.edu.cn/
CNCI:https://github.com/www-bioinfo-org/CNCI
鑒定標准如下:
CPC_threshold = 0,大於0的轉錄本為mRNA,小於0的為lncRNA
CNCI_threshold = 0,大於0的轉錄本為mRNA,小於0的為lncRNA
PfamScan:比對上Pfam蛋白數據庫的為mRNA,沒有比對上的為lncRNA
注意:1)cpc和PfamScan( http://www.dxy.cn/bbs/thread/36426921#36426921 作者之前寫過用法)需要先建立蛋白參考數據庫,cpc可以下載Uniprot/swissprot蛋白序列
2)PfamScan輸入的是蛋白序列,可以由cpc的預測結果得出。
預測完成之后選取三個軟件的交集轉錄本作為novel coding和noncoding轉錄本
我們在篩選lncRNA的時候,取的是交集,這樣篩選的結果會更加准確可靠。
很多LNCRNA因為命名不統一,所以網上查找起來很困難,有沒有好用的數據庫或者方法?
答: 主要是以NCBI為主,比較全面,便於查詢。如果你主要關注人和小鼠的LncRNA的話,可以看看GENCODE,這個上面很全,經常更新,而且上面的命名NCBI也可以查詢到。
其他物種的話,你可以看下Ensembl上面,他的注釋gtf文件里面包含了所有的RNA,但是其中lncRNA比GENCODE要少一些。所有已知的LncRNA在NCBI上面都是可以查詢的。NCBI,GENCODE,Ensembl這三個數據庫的基因symbol基本一致。所以,如果是人和小鼠,你選擇GENCODE比較好,如果是其他物種,就選擇Ensembl吧
這篇文獻主要介紹了lncScore,用python寫的一個腳本,主要是依賴一個機器學習第三方庫scikit-learn。它能夠通過開放閱讀框,外顯子和最大編碼子序列等11個特征參數對lncRNA進行篩選。為了加快lncScore的運行速度,主要采用多線程>分析,只需花費2分鍾的時間就能夠對64,756個轉錄本進行分類。
文章里用gencode數據庫里的lncRNA數據做了驗證
此工具與CPAT, CNCI 和 PLEK類似,我們的lncRNA流程里的編碼潛能預測軟件用的是CPC CNCI Pfam,貌似CPC也是這個團隊開發的。
來源:
https://www.dxy.cn/bbs/newweb/pc/post/36683079
https://www.omicsclass.com/question/995
http://yangguang8112.github.io/tags/%E6%96%87%E7%8C%AE/
http://www.360doc.com/content/18/0607/18/50540690_760476362.shtml
http://www.360doc.com/content/18/0515/20/50540690_754224549.shtml (lncRNA研究常用數據庫)