1、ORF:開放閱讀框,開放閱讀框是基因序列的一部分,包含一段可以編碼蛋白的鹼基序列,不能被終止子打斷。從起始密碼子開始,到終止密碼子結束。前面是5‘UTR, 后面是3’UTR,ORF一般是針對mRNA來說的。
mRNA由基因序列轉錄得來,一個基因可能有幾條不同的轉錄本,因而對應的ORF也可能不同
2、UTR:untranslated region/非翻譯區,出現在原核生物和真核生物的mRNA(信使RNA)上。即一條mRNA鏈上有多個編碼區,5'端、3'端和各編碼區之間為非翻譯區。
3、順式作用元件(cis-acting element):存在於基因旁側序列中,能影響基因表達的序列。順勢作用元件包括啟動子、增強子、調控序列和可誘導元件等,他們的作用是參與基因表達的調控。順式作用元件本身不編碼任何蛋白質,僅僅提供一個作用位點,要與反式作用因子相互作用才能起作用。
4、旁側序列(flanking sequence):結構基因兩側的核苷酸序列,對基因的表達及表達水平具有調控作用。
5、反式作用因子:轉錄模板上游基因編碼的一類蛋白調節因子,包括激活因子和阻遏因子等,他們與順式作用元件的上游激活序列特異性結合,對真核生物基因的轉錄分別起促進和阻遏作用:轉錄因子就是反式作用因子。
注意:轉錄因子TFII與TATA框位點結合,轉錄因子CTF與CAAT框位點結合
6、基因在染色體的上游:基因位於靠近染色體表達起點(起始子)的位置;基因在染色體的下游:基因位於靠近染色體表達終止(終止子)的位置。染色體有特定的鹼基組合作為起始子,在核酸翻譯和復制時會從起始子位置開始表達;也有特定的鹼基序列作為終止子,遇到這樣的鹼基序列,染色體表達將會終止。
7、結構基因:是編碼蛋白質或RNA的基因。細菌的結構基因一般成簇排列,多個結構基因受單一啟動子共同控制,使整套基因或都表達或者都不表達。結構基因編碼大量功能各異的蛋白質,其中有組成細胞和組織器官基本成分的結構蛋白、有催化活性的酶和各種調節蛋白等。
注意:真核生物一個啟動子控制一個結構基因的表達;斷裂基因是因為編碼序列不連續
通常我們在高中時期只學習了RNA聚合酶組與啟動子結合轉錄開始,可實際是:一個真核生物基因的轉錄需要3至5個轉錄基因。轉錄基因之間互相結合,生成有活性和專一性的復合物,再與RNA聚合酶搭配而有針對性地結合、轉錄相應地基因。
一、DNA
編碼區(coding region):能夠編碼為前體RNA
基因在結構上,分為編碼區和非編碼區兩部分。真核生物的編碼區是不連續的,分為外顯子和內含子,在轉錄過程中會修剪內含子,並拼合外顯子來形成轉錄產物。在原核生物中,基因是連續的,也就是說無外顯子和內含子之分。
外顯子(Exon)
外顯子是在preRNA經過剪切和修改后被保留的DNA部分,並最終出現在成熟RNA的基因序列中。
內含子(Intron)
在真核生物中,內含子作為阻斷基因的線性表達的一段DNA序列,是在preRNA經過剪切或修飾后被切除的DNA序列
非編碼區(Non-coding region)
非編碼區在對基因的表達調控中發揮着重要作用,如啟動子,增強子,終止子等都位於該區域,有意思的是人類基因中非編碼區的占比超過90%。他們中的一部分可以轉錄為功能性RNA,比如tRNA(transfer RNA),rRNA(ribosomal RNA)等;可以作為DNA復制,轉錄起始來對復制,轉錄和翻譯起到調控作用,也可以是着絲粒與端粒的重要組成部分。
啟動子(Promoter)
啟動子是特定基因轉錄的DNA區域,啟動子一般位於基因的轉錄起始位點:5‘端上游,啟動子長約100-10000bp。在轉錄過程中,RNA聚合酶與轉錄因子可以識別並特異性結合到啟動子特有的DNA序列(一般為保守序列),從而啟動轉錄。啟動子本身並不轉錄而且也不控制基因活動,而是通過轉錄因子結合來調控轉錄過程。在細胞核中,似乎啟動子優先分布在染色體區域的邊緣,可能是在不同染色體上共同表達基因。此外,在人類中,啟動子顯示出每個染色體特有的某些結構特征。
*CAAT Box(CAAT框)與Sextama box
CCAAT box(有時也縮寫為CAAT box或CAT box):具有GGCCAATCT共有序列的不同核苷酸序列,是真核生物基因常有的調節區,位於轉錄起始點上游約-80bp處,是轉錄因子CTF/NF-a-1的結合位點,可能也是RNA聚合酶的一個結合處,控制着轉錄起始的頻率。與之相似的是,在原核生物啟動子上-35bp處的TTGACA區,又稱-35區。
(保守序列與共有序列的概念含義基本相同。保守序列間相似度高,但不一定相同,而共有序列是相同的,共有序列可以理解為一種特殊的保守序列)
CAAT框是最早被人們描述的常見啟動子元件之一,常位於接近-80的位置,但是它可以在離起始點較遠的距離仍能起作用,且在兩種取向均可發揮作用。CAAT框的突變敏性提示了它在決定轉錄效率上有很強的作用,但是突變對啟動子的特異性沒有影響。
*TATA Box與Pribnow box
TATA框(TATA box/Goldberg-Hogness box),存在於古細菌和真核生物的核心啟動子區域的一段DNA序列,TATA框的原核同源物稱為Pribnow 框(Pribnow box),其具有較短的共有序列TATAATAAT。它約在多數真核生物基因轉錄起始點上游約-30bp(-25~-32bp)處,基本上由A-T鹼基對組成,是決定基因轉錄始的選擇,為RNA聚合酶的結合處之一,RNA聚合酶與TATA框牢固結合之后才能進行起始轉錄。
增強子(Enhancer)
增強子是位於轉錄起始位點或下游基因IMbp的位置,長度50-1500bp的序列,其可以被轉錄激活因子結合從而增加特定基因轉錄發生的可能性。增強子是DNA上一小段可以蛋白質結合的區域,與蛋白質結合之后,基因的轉錄作用將會加強。廣泛的存在於原核與真核生物基因結構中。
增強子能大大激活啟動子的活性。增強子有別於啟動子處有兩點:增強子對於啟動子的位置不固定,而能有很大的變動;它能在兩個方向上產生相互作用。一個增強子並不局限於促進某一特殊啟動子的轉錄,他能刺激在它附近的任一啟動子。
終止子(Terminator)
終止子位於基因或操作子的末端,給RNA聚合酶提供轉錄終止信息的DNA序列。
(終止子與終止密碼子的概念區別:兩者在名稱上相似,但是含義是截然不同的。終止子是處於基因的非編碼區的一段DNA序列,用於轉錄終止。而終止密碼子是在翻譯過程中終止肽鏈合成的mRNA中的三聯體鹼基序列,一般情況下為UAA,UAG和UGA,不編碼氨基酸)
*ATAAA
ATAAA是preRNA在通過修剪后形成成熟mRNA時在3’UTR產生ployA是的加尾信號。但是這段序列並不是絕對保守,也可能為其他A富集的序列,比如AATAAA等。
*回文序列(palindrome sequence)
回文序列是雙鏈DNA中的一段倒置重復序列,這段序列有個特點,他的鹼基序列與其互補鏈之間正讀或反讀都相同。當該序列的雙鏈被打開后,如果這段序列較短,有可能是限制性內切酶的識別序列,如果比較長,有可能形成發卡結構,這種結構的形成有助於DNA與特異性DNA與蛋白質結合。
5' GGTACC 3'
3' CCATGG 5'
*發卡結構(hairpin structure):這些結構是由於DNA單鏈分子通過自身回折使得互補的鹼基對相遇,形成氫鍵結合而成的,稱為發卡結構。
二、preRNA
轉錄起始位點(Transcription start sites)
轉錄起始位點是指與新生RNA鏈第一個核苷酸相對應的DNA鏈上的鹼基,通常為一個嘌呤(A或G),即5‘UTR的上游的一個鹼基。
5’末端的序列稱為上游,而把其后面即3‘末端的序列稱為下游.
轉錄終止位點(Transcription termination sites)
轉錄終止位點是指新生RNA鏈最后一個核苷酸相對應的DNA鏈上鹼基。當RNA鏈延伸轉錄終止位點時,RNA聚合酶不再形成新的磷酸二酯鍵,RNA-DNA雜合物分離,轉錄泡瓦解,DNA恢復成雙鏈狀態,而RNA聚合酶和RNA鏈都從模板上釋放出來。
三、mRNA
5'UTR 與 3'UTR
這里需要注意的是外顯子包含UTR區,也就是說外顯子不只有可編碼的序列,而且包含非編碼序列
UTR (Untranslated Region ),如果這段序列位於5'端,就稱作5'UTR(5‘-untranslated region),也叫前導序列(leader)。相反若位於3'端,我們就叫它3'UTR(3‘-untranslated region),也叫尾隨序列(trailer)。1978年,人類γ球蛋白mRNA的5′非翻譯區被成功完全測序 。1980年,又開啟了人類α-珠蛋白基因中3′非翻譯區的研究。有趣的是,雖然叫非編碼區,但是5′非翻譯區內的上游可讀框卻可以被翻譯成多肽1 。
5'UTR 位於從mRNA起點的甲基化鳥嘌呤核苷酸帽延伸至起始密碼子AUG,3'UTR從編碼區末端的終止密碼子延伸至多聚A尾巴(Poly-A)的前端
原核生物和真核生物都可以看到UTR,但它們的長度和組成都有所不同。原核生物中,5′非翻譯區通常為3至10個核苷酸的長度。但在真核生物中,5′非翻譯區有成百上千個核苷酸的長度。與原核生物相比,真核生物的基因組的復雜性更高,3′非翻譯區的長度也不同。雖然5′非翻譯區和3′非翻譯區在長度上有差異,但5′非翻譯區的長度在演化過程中比3′非翻譯區顯得更保守。
5‘Cap
5‘Cap也被稱為7-甲基鳥苷酸帽,縮寫為m7G。這種結構在RNA進出細胞核起到識別作用;可以抗5'-核酸外切酶的截切;促進5’端內含子的切除;在翻譯過程中有助於核糖體對mRNA的識別和結合。
3’ PolyA tail
Poly A tail 由多個腺苷一磷酸組成 ,也就是說它是一段僅含有腺嘌呤鹼基的RNA 。這種結構可以避免細胞質中的酶促降解,並有助於轉錄終止,mRNA從細胞核中的輸出和翻譯。
CDS (coding dna sequence)
CDS 是基因中DNA或RNA為蛋白質編碼區域,該區域通常開始於5‘末端的起始密碼子並結束於3’端的終止密碼子。生物體基因組編碼區的總和稱為外顯子組。
四、遺傳學
結構基因:是指編碼蛋白質或RNA的基因。細菌的結構基因一般成簇排列,多個結構基因受單一啟動子共同控制,使整套基因或都表達或者都不表達。是指決定某一種蛋白質分子結構的相應的一段DNA或染色體。在正常情況下,在需要某種或其有關的酶時,在調節基因和操縱基因的控制下等候在啟動子(Promotor)位置上的RNA聚合酶開始轉錄,從而產生了與這些酶有關的結構基因的信使RNA,並由后者合成所需的酶。
順反子(cistron)即結構基因,一般情況下與“基因”同義(但是不用來指代“調控基因”),為決定一條多肽鏈合成的功能單位。