長非編碼RNA,英文名為long noncoding RNAs,縮寫為lncRNA,是指長度大於200 核苷酸的非編碼RNA。LncRNA因具有非常重要的調控功能,且幾乎參與到了各種生物學過程和通路,與各種疾病的發生發展緊密關聯,從而成為過去幾年和將來的研究熱點和重點。對於人類基因組來說,產生的lncRNA數量比編碼RNA的數量要多得多,目前除了少數lncRNA的功能比較明確外,大部分lncRNA的功能都還未知。非常值得去深入研究。
<更多精彩,可關注微信公眾號:AIPuFuBio,和大型免費綜合生物信息學資源和工具平台AIPuFu:www.aipufu.com>
根據基因組上的位置關系,lncRNA主要可以分為以下三大類(如下圖所示):
1、Intronic lncRNA,內含子lncRNA:主要產生於編碼基因的內含子區域;
2、Intergenic lncRNA,基因間區的lncRNA,也稱作lincRNA:主要產生於兩個編碼基因的中間區域;
3、Antisense lncRNA,反義lncRNA:主要產生於編碼基因的反義鏈;
具體如下圖所示:
當然lncRNA根據產生的基因組位置還可進一步細分為下面的類型:
目前已知的lncRNA功能眾多,主要可以分為以下幾類(如下圖所示):
1、轉錄干擾;
2、誘導染色質重構和核小體修飾;
3、調控可變剪接模式;
4、產生內源siRNAs;
5、調控蛋白質的活性;
6、結構或組織功能;
7、改變蛋白質的定位;
8、小RNA的前體等。
具體如下圖所示:
至今為止,已經發現了很多與發育或疾病特別是癌症發生發展緊密相關的lncRNA。下表給出了一些具體示例:
此外,很多研究還發現lncRNA在各類組織中的表達比編碼RNA(mRNA)更具有組織特異性,說明lncRNA與組織的功能特異性密切相關,具體如下圖所示:
那么具體如何來鑒定和判斷一條RNA是否為lncRNA呢?
目前,鑒定lncRNA的方法主要可以分為以下兩大類:
1、基於RNA-seq測序數據的自動注釋策略;
又可細分為兩種方法:
i)Genome-guided的方法;
主要是先把RNA-seq數據匹配到參考基因組上,然后進行組裝得到轉錄本序列(如Cufflinks、Stringtie等軟件),接着再用相應的軟件(如CPAT,CPC等)判斷轉錄本的編碼性與否。主要適用於有參考基因組的物種。
ii) De novo assembly的方法;
先通過從頭組裝/拼接的方法獲得轉錄本的序列(如Trinity軟件),然后再用相應的軟件判(如CPAT,CPC等)斷轉錄本的編碼性與否。主要適用於無參考基因組的物種。
2、人工注釋;
人工注釋涉及到利用各種類型的數據來綜合注釋鑒定lncRNA,包括用EST、cDNA等數據來確定轉錄本的主要結構,並用RNA-seq數據來判斷內含子區域,然后用CAGE tags來確定轉錄本的5'端,Poly (A)測序來定位轉錄本的3'端。最后再用一些列的數據和方法來確定RNA的編碼性,如序列進化特征判斷的PhyloCSF方法、蛋白質譜數據、Ribosome Profiling等。
具體如下圖所示:
現在已經有多個不同數據注釋了眾多的lncRNA,但不同數據庫注釋的lncRNA完整性和覆蓋度不大一樣,具體如下表所示:
<更多精彩,可關注微信公眾號:AIPuFuBio,和大型免費綜合生物信息學資源和工具平台AIPuFu:www.aipufu.com>
參考文獻:
1、Rinn et al. Genome Regulation by Long Noncoding RNAs, Annu Rev Biochem, 2013
2、Wilusz et al. Long noncoding RNAs: functional surprises from the RNA world,Genes & Development, 2009
3、Ransohoff et al. The functions and unique features of long intergenic non-coding RNA,NATURE REVIEWS | MOLECULAR CELL BIOLOGY, 2018
4、Uszczynska-Ratajczak et al. Towards a complete map of the human long non-coding RNA transcriptome, Nature Review Genetics, 2018
