本文轉載自 基因結構 - 知乎 (zhihu.com)
我們都知道不論真核與原核生物都離不開基因,它儲存着生長、發育、凋亡等幾乎全部生命過程的信息。那么基因有着哪些結構呢,接下來從三個層面來討論基因的構成:
一、DNA
編碼區 Coding region
基因在結構上,分為編碼區和非編碼區兩部分。真核生物的編碼區是不連續的,分為外顯子和內含子,在轉錄過程中會修剪內含子,並拼合外顯子來形成轉錄產物。在原核生物中,基因是連續的,也就是說無外顯子和內含子之分。
外顯子 Exon
外顯子是在 preRNA 經過剪切或修飾后,被保留的DNA部分,並最終出現在成熟RNA的基因序列中。
內含子 Intron
在真核生物中,內含子作為阻斷基因的線性表達的一段DNA序列,是在 preRNA 經過剪切或修飾后,被切除的DNA序列
非編碼區 Non-coding region
非編碼區在對基因的表達調控中發揮重要作用,如啟動子,增強子,終止子等都位於該區域,有意思的是在人類基因中非編碼區的占比超過90%。它們中的一部分可以轉錄為功能性RNA,比如tRNA(transfer RNA), rRNA(ribosomal RNA)等;可以作為DNA復制,轉錄起始來對復制,轉錄和翻譯起到調控作用;也可能是着絲粒與端粒的重要組成部分。
啟動子 Promoter
啟動子是特定基因轉錄的DNA區域,啟動子一般位於基因的轉錄起始位點,5‘端上游,啟動子長約100-1000bp。在轉錄過程中,RNA聚合酶與轉錄因子可以識別並特異性結合到啟動子特有的DNA序列(一般為保守序列),從而啟動轉錄。啟動子本身並不轉錄而且也不控制基因活動,而是通過轉錄因子結合來調控轉錄過程。在細胞核中,似乎啟動子優先分布在染色體區域的邊緣,可能是在不同染色體上共同表達基因。 此外,在人類中,啟動子顯示出每個染色體特有的某些結構特征。
- CAAT Box 與 Sextama box
CCAAT box(有時也縮寫為CAAT box或CAT box):具有GGCCAATCT
共有序列的不同核苷酸序列 ,是真核生物基因常有的調節區,位於轉錄起始點上游約-80bp處,可能也是RNA聚合酶的一個結合處,控制着轉錄起始的頻率。與之相似的是,在原核生物啟動子上-35bp處的TTGACA區,又稱-35區。
保守序列與共有序列的概念含義基本相同。保守序列間相似度高,但不一定相同,而共有序列是相同的,共有序列可以理解為一種特殊的保守序列。
CAAT框是最早被人們描述的常見啟動子元件之一,常位於接近-80的位置,但是它可以在離起始點較遠的距離仍能起作用,且在兩種取向均可發揮作用。CAAT框的突變敏感性提示了它在決定轉錄效率上有很強的作用,但是突變對啟動子的特異性沒有影響。
- TATA Box 與 Pribnow box
TATA 框(TATA box / Goldberg-Hogness box),存在於古細菌和真核生物的核心啟動子區域的一段DNA序列,TATA 框的原核同源物稱為Pribnow 框(Pribnow box),其具有較短的共有序列TATAATAAT
。 它約在多數真核生物基因轉錄起始點上游約-30bp(-25~-32bp)處,基本上由A-T鹼基對組成,是決定基因轉錄始的選擇,為RNA聚合酶的結合處之一,RNA聚合酶與TATA框牢固結合之后才能起始轉錄。
增強子 Enhancer
增強子是位於轉錄起始位點或下游基因1Mbp的位置,長度50-1500bp的序列,其可以被轉錄激活因子結合從而增加特定基因轉錄發生的可能性,廣泛的存在於原核與真核生物基因結構中。
增強子能大大增強啟動子的活性。增強子有別於啟動子處有兩點:增強子對於啟動子的位置不固定,而能有很大的變動;它能在兩個方向產生相互作用。一個增強子並不限於促進某一特殊啟動子的轉錄,它能刺激在它附近的任一啟動子。
終止子 Terminator
終止子處於基因或操縱子的末端,給RNA聚合酶提供轉錄終止信號的DNA序列。
終止子與終止密碼子的概念區分:二者在名稱上相似,但是含義是截然不同的。終止子是處於基因的非編碼區的一段DNA序列,用於終止轉錄。而終止密碼子是在翻譯過程中終止肽鏈合成的mRNA中的三聯體鹼基序列,一般情況下為UAA,UAG和UGA,不編碼為氨基酸。
- ATAAA
ATAAA 是 preRNA 在通過修剪后形成成熟mRNA 時在3'UTR產生ployA 是的加尾信號。但是這段序列並不是絕對保守,也可能為其他A富集的序列,比如AATAAA
等。
- 回文序列 palindrome sequence
回文序列是雙鏈DNA中的一段倒置重復序列,這段序列有個特點,它的鹼基序列與其互補鏈之間正讀和反讀都相同。當該序列的雙鏈被打開后,如果這段序列較短,有可能是限制性內切酶的識別序列,如果比較長,有可能形成發卡結構,這種結構的形成有助於DNA與特異性DNA與蛋白質的結合。
5' GGTACC 3'
3' CCATGG 5'
二、preRNA
轉錄起始位點 Transcription start sites (TSS)
轉錄起始位點是指與新生RNA鏈第一個核苷酸相對應的DNA鏈上的鹼基,通常為一個嘌呤(A 或G),即5’UTR的上游第一個鹼基。
5’末端的序列稱為上游,而把其后面即3‘末端的序列稱為下游.
轉錄終止位點 Transcription termination sites (TTS)
轉錄起始位點是指新生RNA鏈最后一個核苷酸相對應的DNA鏈上的鹼基。當RNA鏈延伸到轉錄終止位點時,RNA聚合酶不再形成新的磷酸二酯鍵,RNA-DNA雜合物分離,轉錄泡瓦解,DNA恢復成雙鏈狀態,而RNA聚合酶和RNA鏈都被從模板上釋放出來。
開放閱讀框 Open reading frame(ORF)
ORF 是連續的一段密碼子,其含有起始密碼子(通常是AUG)和終止密碼子(通常是UAA,UAG或UGA)。在真核基因中,ORF跨越內含子/外顯子區域,其可以在 ORF 轉錄后拼接在一起以產生蛋白質翻譯的最終mRNA。 由於讀寫位置不同(對應不同的起始位點),ORF 可能翻譯為不同的多肽鏈。
三、mRNA
5'UTR 與 3'UTR
這里需要注意的是外顯子包含UTR區,也就是說外顯子不只有可編碼的序列,而且包含非編碼序列
UTR (Untranslated Region ),如果這段序列位於5'端,就稱作5'UTR(5‘-untranslated region),也叫前導序列(leader)。相反若位於3'端,我們就叫它3'UTR(3‘-untranslated region),也叫尾隨序列(trailer)。1978年,人類γ球蛋白mRNA的5′非翻譯區被成功完全測序 。1980年,又開啟了人類α-珠蛋白基因中3′非翻譯區的研究。有趣的是,雖然叫非編碼區,但是5′非翻譯區內的上游可讀框卻可以被翻譯成多肽1 。
5'UTR 位於從mRNA起點的甲基化鳥嘌呤核苷酸帽延伸至起始密碼子AUG,3'UTR從編碼區末端的終止密碼子延伸至多聚A尾巴(Poly-A)的前端
原核生物和真核生物都可以看到UTR,但它們的長度和組成都有所不同。原核生物中,5′非翻譯區通常為3至10個核苷酸的長度。但在真核生物中,5′非翻譯區有成百上千個核苷酸的長度。與原核生物相比,真核生物的基因組的復雜性更高,3′非翻譯區的長度也不同。雖然5′非翻譯區和3′非翻譯區在長度上有差異,但5′非翻譯區的長度在演化過程中比3′非翻譯區顯得更保守2。
5‘Cap
5‘Cap也被稱為7-甲基鳥苷酸帽,縮寫為m7G。這種結構在RNA進出細胞核起到識別作用;可以抗5'-核酸外切酶的截切;促進5’端內含子的切除;在翻譯過程中有助於核糖體對mRNA的識別和結合。
3’ PolyA tail
Poly A tail 由多個腺苷一磷酸組成 ,也就是說它是一段僅含有腺嘌呤鹼基的RNA 。這種結構可以避免細胞質中的酶促降解,並有助於轉錄終止,mRNA從細胞核中的輸出和翻譯。
CDS (coding dna sequence)
CDS 是基因中DNA或RNA為蛋白質編碼區域,該區域通常開始於5‘末端的起始密碼子並結束於3’端的終止密碼子。生物體基因組編碼區的總和稱為外顯子組。
[1] Cristina Vilela, John E. G. McCarthy.Regulation of fungal gene expression via short open reading frames in the mRNA 5′untranslated region:Molecular Microbiology,2003-08-01:859–867
[2] Evolution of 5′ Untranslated Region Length and Gene Expression Reprogramming in Yeasts
[3] Gagniuc, Paul, and Constantin Ionescu-Tirgoviste. "Gene promoters show chromosome-specificity and reveal chromosome territories in humans." BMC genomics 14.1 (2013): 278.
[4] Shafee, Thomas; Lowe, Rohan (2017). "Eukaryotic and prokaryotic gene structure".WikiJournal of Medicine.4(1).doi:10.15347/wjm/2017.002.ISSN2002-4436