權威發布:長鏈非編碼RNA命名規則


轉自:http://blog.sina.com.cn/s/blog_8088f3700101pab7.html

權威發布:長鏈非編碼RNA命名規則



對於人類基因命名標准的制定而言,雨果基因命名委員會(HGNC)是唯一官方授權的機構。HGNC的數據庫中有38000個基因名稱,其中大部分是編碼蛋 白基因;但HGNC也命名了8500多個人類非編碼基因及假非編碼基因,通過與各層次專家們的合作,他們命名了大多數的小非編碼RNA。

小非編碼RNA一般可根據它們的同源性及相同功能來分類。相比而言,長鏈非編碼RNA則有其完全不同的一系列特點,它們的長度超過200個鹼基,不具有保守序列的同源性,還有多變的功能屬性。就像編碼蛋白基因一樣,長鏈非編碼RNA也是盡量基於它們產物的已知功能來命名。

為了幫助科研人員能有效地命名lncRNA,讓他們的命名更規范,名字更能反映功能,HGNC制作了這么一個命名指導標准,供科研人員參考。

在一個長鏈非編碼RNA要發表之前,研究人員應先得到HGNC的認可。

依據相關預測,人類基因組中有大量的長鏈非編碼RNA(至少幾千條),但人類了解其功能的很少。所以,一般用基因組上下文來對未知功能的lncRNA命 名。HGNC希望與研究者們一起把長鏈非編碼RNA命名的工作做好。HGNC的目標是讓lncRNA的命名具有唯一性、准確性(讓名字最大程度的反映功 能)。

lncRNA 命名指導標准
一條lncRNA要命名得合理准確,有一些原則需要去遵循,有許多的因素需要去注意。詳細的命名原則及考慮因素如下:
每一條lncRNA的名字應具有唯一性 

“名字唯一性”這條原則很重要,不能違反。它能讓我們在研究分析某個基因時不會產生問題(不會發生這種事情:一條基因幾個名字,存在重名的基 因等)。另一方面,上述問題也不利於HGNC對命名規則的管理及維護。如果一個作者發布一個lncRNA名字,而它已經在別的地方使用過,HGNC將會指 定一個新的名字供選擇。例如,一個新的lncRNA,它的功能是維持上皮細胞在非分化狀態,本來打算命名為ANCR,但是這個名字已經被使用於“快樂木偶 綜合症染色體區,Angelman syndrome chromosome region”,所以與作者達成一致,用DANCR來命名這個lncRNA“ differentiation antagonizing non-protein coding RNA”.

lncRNA的名字應是描述基因的縮寫
每條lncRNA的標識都應是一個描述該基因的“縮寫”或者“首字母簡寫”。
例如BANCR就是由‘BRAF-activated non-protein coding RNA’短語的首字母排列而成。這樣讓人們容易理解名字的含義。

lncRNA的名字應僅由拉丁字母和阿拉伯數字組成
每條lncRNA的標識中不應出現標點符號,但可以用字母或者數字來代替標點符號。
連字符僅在特殊場合使用。例如:反義編碼蛋白基因可在標識中加連字符(BACE1-AS就是BACE1 antisense RNA的名字)。

lncRNA的名字中的字母應為大寫
為了與其它種類物種的基因區別開來(如嚙齒動物基因的標識只要求首字母大寫,其余小寫),人類基因標識中的字母都應為大寫。
例如“熱氣”(HOTAIR)基因,在人類中叫HOTAIR,而在老鼠中寫成Hotair。

lncRNA的名字中不應涉及具體的物種類型
例如:如果基因名字中有H/h(代表人類),由於牽涉到同源基因的問題,就會造成一些疑惑和誤導。

lncRNA的標識應避免采用一些常用的詞匯
基因的名字中出現的常用詞匯會帶來一些混亂,給分析研究帶來很多問題,因此,在命名中應避免出現常見詞匯。
例如:“AIRN”基因最初公布時叫‘AIR’,從公共數據庫中搜索可得到22萬條不相關的信息,而搜索“AIRN”則只有10條信息。可見“AIRN”的搜索效率有效得多。同樣的例子很多。

lncRNA的標識應盡可能的反映其功能
例如:'XIST'基因是'X (inactive)-specific transcript'的縮寫,該基因的作用是參與沉默一對X染色體的轉錄。
命名的時候盡量反映基因通常的功能,而不體現其突變表型。基因的命名應簡潔明了,不應包含太多信息。
  • 基因的標識中不應具有攻擊或輕蔑的色彩。
  • 基因的標識中不應具有個人及地方色彩。
  • 基因的標識中不應含有神化,虛構或歷史人物的名字。
  • 基因的標識中不應含有“臆想”和沒什么意義的信息。
功能性轉錄假基因應包含它們假基因的名字
目前,一些數量較少的轉錄假基因被發現具有功能性,例如PTENP1基因就與“PTEN-targeting”miRNA結合一起參與調節PTEN的表達水平。
具有功能的轉錄假基因在命名時應保留它們的假基因名稱,並且不應改變其基於功能的名稱。為了方便搜索,這個功能應加在標識的最后。PTENP1的命名就是這方面的例子。PTENP1 是‘phosphatase and tensin homolog pseudogene 1 (functional)’.

如何命名未知功能的基因應遵循如下要求
未知功能的lncRNA應依據基因組上下文來命名,圖一中給出如何系統化的命名的規則。



圖一

如果有一個很接近的蛋白編碼基因,lncRNA的名字應該以這個編碼基因名字開始,然后制定以后后綴,這個后綴可以下方式分類:
反義 (antisense, AS),BACE1-AS;
內含子(intronic, IT),例如,SPRY4-IT1;
重疊 (overlapping, OT),例如,OSX2-OT;
長鏈 基因間lncRNA(Long intergenic lncRNAs,lincRNAs),以 LINC為前綴,數字為后綴,例如LINC00485.
本質上以上命名原則是以GNECODE的注釋目錄為基准, 反義RNA,正義內含子,正義重疊和長鏈基因間非編碼RNA(lincRNA).一些新的分類方法也應該考慮,特別對這些lnRNA,它們與編碼基因是頭 碰頭(head to head),因此推斷它們擁有雙向啟動子,HGNC推薦命名這些lncRNA為 反義上游(Antisense upstream, AU),例如,GENE2-AU1。大家也應該注意到HGNC並不贊成以剪接變異體來命名,所以兩個剪接變異體命名是以其中一個 lncRNA基因來命名,例如,GENE2-AS1;如果一個lncRNA基因編碼的轉錄本跨多於一個蛋白編碼基因,用lncRNA的5’末端的第一個蛋 白編碼基因來命名,例如GENE-AS2
上述命名的基本架構適用於大多數lncRNA,但對於基因密集區域的lncRNA可能就不適用了,這種情況下,你應該與HGNC溝通來解決。

HGNC致力於讓人類基因組中lncRNA的命名有效、規范。想了解更多相關內容請訪問
http://www.genenames.org/rna/LNCRNA,也可以給HGNC發郵件hgnc@genenames.org


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM