(基因功能 & 基因表達調控)研究方案


做了好久的RNA-seq分析,基因表達也在口頭溜了幾年了,但似乎老是浮在表面。

對一件事的了解程度決定了你的思維深度,只想做技工就不用想太多,想做大師就一定要刨根問底。

老是說基因表達,那么什么是基因表達?我們測序得到的基因表達其實只是一種表型,是樣本的一個快照,和普通的身高體重之類的連續型表型類似。

常規的轉錄組分析本質上都是表型分析,clustering、pseudotime、DEG、marker,在這些分析中,每個基因都是獨立的維度,屬於靜態的分析,此時我們關注的是某個基因的功能分析,比如RET,功能已經明確,那就可以用基因表達這個表型來解釋另一個表型。

高通量測序還會有后續的分析,幾萬個基因不可能一個一個的研究,GO和KEGG分析就來了,基因不是互相獨立的,GO term和pathway的概念就來了。GO和KEGG的本質是規范了基因之間的關系。GO整合了所有物種,是從生命系統的角度來統一基因的關系,這種關系只是一個集合;KEGG是針對一個物種來界定基因之間的關系,這種關系是有向圖結構。必須再深入了解GO和KEGG的制作原理,暫時不深入。此時我們開始區分基因類型,蛋白編碼、非編碼、轉錄因子。在這個階段我們更關注的是基因之間的調控關系

中心法則揭示了生命系統的層級和管道結構,和計算機的通信系統很類似,就算上游的基礎調控再復雜,下游的蛋白都是決定性因素,所以令人驚嘆的是上游調控如此復雜多變,可下游的蛋白確是非常穩定,這說明復雜多變的調控是非常穩定的。

 

基因研究的第一步必然是基因的功能,其次才是基因的調控。

 

基因功能 

那么如何研究一個基因的功能呢?參考:#基因組觀#基因功能研究的“七大絕招”與“三板斧” - BioinforCN

簡單總結一下這篇文章:

1. 天地人和,研究基因表達的時空規律來推測功能,這和偵探調查是一樣的,屬於間接推理;

2. 患得患失,就是直接操作基因,knock out或down或overexpress,來直接探索基因的功能,屬於直接觀察;

3. 上下求索,因為中心法則是個層級和管道系統,上下游十分明確,從基因的DNA、RNA到蛋白質,一起研究;

4. 十面埋伏,立體論證,做生物的很容易觀察到假陽性,必須多角度論證;

5. 其他的,misexpression、in vitro/vivo。

 

不說人類hs了,假設你負責一個全新的物種的基因組和基因功能研究,你如何找到該物種的所有基因呢?

看任何一篇基因組組裝文章都能找到解決方案。那我們就看看嚴建兵的最新的玉米的NG吧,Genome assembly of a tropical maize inbred line provides insights into structural variation and crop improvement

微信文章:《Nature Genetics》| 玉米產量相關基因找到了 | 熱帶玉米基因組及高精度結構變異圖譜成功構建,助力玉米遺傳改良

首先是基因組DNA的組裝,Genome sequencing, assembly and scaffolding,這部分純技術,以后估計都不要組裝了,直接把基因組測出來;

其次就是基因組注釋了,Genome annotation,這部分是我們現在最感興趣的部分,如何找到一個新物種內的所有基因?

A comprehensive strategy combining de novo gene prediction, protein-based homology searches, RNA sequencing (RNA-Seq) and isoform sequencing (Iso-Seq) of nine tissues (Supplementary Table 6) was used to annotate the genes (Supplementary Fig. 7).

方案來了:

1. 基因是有特殊結構的,所以只要有DNA序列,就可以做denovo預測;

2. 中心法則告訴我們DNA、RNA和蛋白質是環環相扣的,所有測RNA-seq和iso-seq可以間接推出基因;

3. 蛋白測序還沒有普及,所以目前都用的同源蛋白序列來反推;

這樣注釋出來的只是很general的基因注釋,能cover絕大多數基因,但某些特殊結構的肯定無法注釋出來。

有了草圖,后面再做實驗的功能研究就會方便很多。

基於高通量測序的前兩步只能告訴你基因組的這個地方是個基因,但是不可能告訴你它的功能;第三步就是基於已有的知識了,做同源推理。所以目前來看所有的生物知識都是來源於實驗的,測序只是一個加速的輔助手段而已。

可以沒有測序,但是不能沒有實驗,測序是科研加速的催化劑。

文章結果:

 

GENE FINDING METHODS - broad institute - 很全面

 

基因表達調控/轉錄調控

教科書解釋:

  1. 染色體和染色質水平的結構變化,導致基因活性變化;Hi-C,bulk平均好些,sc的量太少不靠譜
  2. 轉錄水平調控;轉錄因子,enhancer,promoter,ncRNA
  3. RNA加工水平調控,剪切修飾編輯降解;甲基化,lncRNA抑制降解
  4. 轉錄后,細胞核向細胞質轉運;HDAC4
  5. 翻譯水平;
  6. 蛋白合成水平;蛋白修飾定量,不是AA測序

目前最火的兩個可以用高通量測序研究的調控方法:

  • 轉錄因子,enhancer,promoter
  • 非編碼RNA,lncRNA、miRNA、ceRNA

參考:

Modes of transcriptional regulation

Transcriptional Regulation and Its Misregulation in Disease

 

項目問題:

現在in vivo和in vitro模型都已成熟,RNA-seq成本大家都可以接受了,CRISPR技術也成熟了,KO一個基因已經變得非常容易,現在發育生物學、生物醫學等都在這么做:KO一個基因,來探索自己感興趣的生物過程發生了哪些變化。 

現在問題來了,KO后表型肯定發生了變化,那么如何把這個表型和基因表達和調控聯系到一起呢

這是一個general的問題,解答好了可以用於任意一個基因的深入研究。

大體解決方案:

假設檢驗是科研獲取真知的唯一手段,首先我們必須要一個合理的假設,然后去尋找各種證據來test這個假設。

沒有假設和驗證就不是做科研,那就是一個技工得出一份沒有意義的結題報告。 

 


問題:

1. RNA-seq的建庫方案有哪些?ployA、隨機等。只抓有polyA的MRNA會有哪些優勢和缺點?ployA只有mRNA有,所以polyA建庫只能抓到蛋白編碼基因,很少部分地ncRNA。參見鏈接

2. 細胞核和全部測序的區別?

3. 基因的長度差別到底有多大?

4. 可變剪切和isoform是如何影響蛋白的?

5. KEGG里面已經有基因的關系了,為什么我們還要研究基因調控?

6. 蛋白互作網絡的用途和局限性是什么?

7. 蛋白是唯一的決定性因素嗎?是的,絕大多數DNA和RNA層面的變化都會最終改變蛋白的功能。比如HSCR的無法形成ENS就是一個復雜的表型,可以肯定的是某些蛋白的功能執行紊亂了。

8. 基因表達的高低重要,還是基因表達的on/off重要?

9. 基因是如何找到和定位的?基因的編碼的蛋白是如何確定的?

10. 如何理解基因之間的關系,是什么性質的關系?

11. 如何立即基因的拷貝數對基因表達的影響?

12. transposable-element對基因表達的影響?

13. 基因的經典結構是什么樣的?什么是CDS和UTR?可以結合目前主流的基因預測工具來看。

14. 轉錄調控和蛋白互作有什么聯系和區別?

 

Typical structure of a mature eukaryotic mRNA (AUG, UAA/UAG/UGA)

 

 

待續~


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM