做了好久的RNA-seq分析,基因表達也在口頭溜了幾年了,但似乎老是浮在表面。
對一件事的了解程度決定了你的思維深度,只想做技工就不用想太多,想做大師就一定要刨根問底。
老是說基因表達,那么什么是基因表達?我們測序得到的基因表達其實只是一種表型,是樣本的一個快照,和普通的身高體重之類的連續型表型類似。
常規的轉錄組分析本質上都是表型分析,clustering、pseudotime、DEG、marker,在這些分析中,每個基因都是獨立的維度,屬於靜態的分析,此時我們關注的是某個基因的功能分析,比如RET,功能已經明確,那就可以用基因表達這個表型來解釋另一個表型。
高通量測序還會有后續的分析,幾萬個基因不可能一個一個的研究,GO和KEGG分析就來了,基因不是互相獨立的,GO term和pathway的概念就來了。GO和KEGG的本質是規范了基因之間的關系。GO整合了所有物種,是從生命系統的角度來統一基因的關系,這種關系只是一個集合;KEGG是針對一個物種來界定基因之間的關系,這種關系是有向圖結構。必須再深入了解GO和KEGG的制作原理,暫時不深入。此時我們開始區分基因類型,蛋白編碼、非編碼、轉錄因子。在這個階段我們更關注的是基因之間的調控關系。
中心法則揭示了生命系統的層級和管道結構,和計算機的通信系統很類似,就算上游的基礎調控再復雜,下游的蛋白都是決定性因素,所以令人驚嘆的是上游調控如此復雜多變,可下游的蛋白確是非常穩定,這說明復雜多變的調控是非常穩定的。
基因研究的第一步必然是基因的功能,其次才是基因的調控。
基因功能
那么如何研究一個基因的功能呢?參考:#基因組觀#基因功能研究的“七大絕招”與“三板斧” - BioinforCN
簡單總結一下這篇文章:
1. 天地人和,研究基因表達的時空規律來推測功能,這和偵探調查是一樣的,屬於間接推理;
2. 患得患失,就是直接操作基因,knock out或down或overexpress,來直接探索基因的功能,屬於直接觀察;
3. 上下求索,因為中心法則是個層級和管道系統,上下游十分明確,從基因的DNA、RNA到蛋白質,一起研究;
4. 十面埋伏,立體論證,做生物的很容易觀察到假陽性,必須多角度論證;
5. 其他的,misexpression、in vitro/vivo。
不說人類hs了,假設你負責一個全新的物種的基因組和基因功能研究,你如何找到該物種的所有基因呢?
看任何一篇基因組組裝文章都能找到解決方案。那我們就看看嚴建兵的最新的玉米的NG吧,Genome assembly of a tropical maize inbred line provides insights into structural variation and crop improvement。
微信文章:《Nature Genetics》| 玉米產量相關基因找到了 | 熱帶玉米基因組及高精度結構變異圖譜成功構建,助力玉米遺傳改良
首先是基因組DNA的組裝,Genome sequencing, assembly and scaffolding,這部分純技術,以后估計都不要組裝了,直接把基因組測出來;
其次就是基因組注釋了,Genome annotation,這部分是我們現在最感興趣的部分,如何找到一個新物種內的所有基因?
A comprehensive strategy combining de novo gene prediction, protein-based homology searches, RNA sequencing (RNA-Seq) and isoform sequencing (Iso-Seq) of nine tissues (Supplementary Table 6) was used to annotate the genes (Supplementary Fig. 7).
方案來了:
1. 基因是有特殊結構的,所以只要有DNA序列,就可以做denovo預測;
2. 中心法則告訴我們DNA、RNA和蛋白質是環環相扣的,所有測RNA-seq和iso-seq可以間接推出基因;
3. 蛋白測序還沒有普及,所以目前都用的同源蛋白序列來反推;
這樣注釋出來的只是很general的基因注釋,能cover絕大多數基因,但某些特殊結構的肯定無法注釋出來。
有了草圖,后面再做實驗的功能研究就會方便很多。
基於高通量測序的前兩步只能告訴你基因組的這個地方是個基因,但是不可能告訴你它的功能;第三步就是基於已有的知識了,做同源推理。所以目前來看所有的生物知識都是來源於實驗的,測序只是一個加速的輔助手段而已。
可以沒有測序,但是不能沒有實驗,測序是科研加速的催化劑。
文章結果:
GENE FINDING METHODS - broad institute - 很全面
基因表達調控/轉錄調控
教科書解釋:
- 染色體和染色質水平的結構變化,導致基因活性變化;Hi-C,bulk平均好些,sc的量太少不靠譜
- 轉錄水平調控;轉錄因子,enhancer,promoter,ncRNA
- RNA加工水平調控,剪切修飾編輯降解;甲基化,lncRNA抑制降解
- 轉錄后,細胞核向細胞質轉運;HDAC4
- 翻譯水平;
- 蛋白合成水平;蛋白修飾定量,不是AA測序
目前最火的兩個可以用高通量測序研究的調控方法:
- 轉錄因子,enhancer,promoter
- 非編碼RNA,lncRNA、miRNA、ceRNA
參考:
Modes of transcriptional regulation
Transcriptional Regulation and Its Misregulation in Disease
項目問題:
現在in vivo和in vitro模型都已成熟,RNA-seq成本大家都可以接受了,CRISPR技術也成熟了,KO一個基因已經變得非常容易,現在發育生物學、生物醫學等都在這么做:KO一個基因,來探索自己感興趣的生物過程發生了哪些變化。
現在問題來了,KO后表型肯定發生了變化,那么如何把這個表型和基因表達和調控聯系到一起呢?
這是一個general的問題,解答好了可以用於任意一個基因的深入研究。
大體解決方案:
假設檢驗是科研獲取真知的唯一手段,首先我們必須要一個合理的假設,然后去尋找各種證據來test這個假設。
沒有假設和驗證就不是做科研,那就是一個技工得出一份沒有意義的結題報告。
問題:
1. RNA-seq的建庫方案有哪些?ployA、隨機等。只抓有polyA的MRNA會有哪些優勢和缺點?ployA只有mRNA有,所以polyA建庫只能抓到蛋白編碼基因,很少部分地ncRNA。參見鏈接
2. 細胞核和全部測序的區別?
3. 基因的長度差別到底有多大?
4. 可變剪切和isoform是如何影響蛋白的?
5. KEGG里面已經有基因的關系了,為什么我們還要研究基因調控?
6. 蛋白互作網絡的用途和局限性是什么?
7. 蛋白是唯一的決定性因素嗎?是的,絕大多數DNA和RNA層面的變化都會最終改變蛋白的功能。比如HSCR的無法形成ENS就是一個復雜的表型,可以肯定的是某些蛋白的功能執行紊亂了。
8. 基因表達的高低重要,還是基因表達的on/off重要?
9. 基因是如何找到和定位的?基因的編碼的蛋白是如何確定的?
10. 如何理解基因之間的關系,是什么性質的關系?
11. 如何立即基因的拷貝數對基因表達的影響?
12. transposable-element對基因表達的影響?
13. 基因的經典結構是什么樣的?什么是CDS和UTR?可以結合目前主流的基因預測工具來看。
14. 轉錄調控和蛋白互作有什么聯系和區別?
Typical structure of a mature eukaryotic mRNA (AUG, UAA/UAG/UGA)
待續~