人類基因組概況:
人類基因組由ATCG四種鹼基組成,但是CG的含量低於50%,所以CG含量低於AT含量。
一個基因組的dna大約3ug。
snp:
平均每100到1000個鹼基會出現1個SNPs,不過密度並不均勻。
如果按照每1000個鹼基存在1個SNP來計算,人類30億個鹼基中,大約有300萬個SNPs。
人類基因組的突變頻率10的-6次方。即:每10的6次方個鹼基,就會發生一個突變。
基因組長度:
人類基因組有30億個鹼基(3*10的10次方)。人類基因組的exon的長度大約1*10的7次方,占基因組的2%~3%。
假如平均一個protein的長度為500個amino acid(氨基酸),那么編碼一個protein需要的鹼基數為500*3=1500bp=1.5kb。那么,1個protein占exon的鹼基數:1500/(1*10的7次方)≈10的4次方,即1個protein占exon鹼基數的萬分之一。
基因類型:
Ensemble數據庫中有5萬多個基因。其中,2萬多個蛋白編碼基因,還有假基因、microRNA、LincRNA等。GeneCode的gtf文件中,有一列是genetype,它分的類型是:protein coding、LincRNA、假基因。
即:基因可分為兩大類編碼蛋白的基因(包括:protein coding gene、pseudogene、LincRNA)、不編碼蛋白的基因。
基因區域:
UTR:不翻譯成蛋白。 3`UTR:轉錄起始->翻譯起始(ATG)之間的區域。5`UTR:翻譯終止->轉錄終止之間的區域。
閱讀框:開放閱讀框(Open Reading Frame, ORF)從DNA序列中,從起始密碼子開始,到終止密碼子結束的一段具有編碼蛋白質功能的鹼基序列。
intergenic:DNA不轉錄成RNA的區域。落入該區域的突變,不知道功能、不關注、不找hotspot。人類基因組98%是intergenetic區域。
introgenic:DNA轉錄成RNA的區域,包括:upstream,intron,exon,downstream,non-coding RNA,lincRNA。只關注落入introgenic區域的突變。即:只關注能轉錄成RNA的區域內的突變。
基因突變:
1. 突變類型:
non-sense(無義突變):某個鹼基突變后,導致原本編碼氨基酸的密碼子變成了終止密碼子,使肽鏈合成提前終止。
FrameShiftIndel:在閱讀框內發生的indel。突變發生的位置不是3的倍數,導致鹼基序列在翻譯成氨基酸的過程中亂套了。
missense:錯義突變。導致編碼的氨基酸發生變化。
VTR_INTRON_ncRNA:exon之外的區域發生突變。
synonymous:鹼基發生改變。但編碼的氨基酸不變,不會對形成的蛋白有影響。比如:CTA與CTG 均編碼亮氨酸,若A突變為G則該變異為同義突變。
silent:鹼基發生改變,而編碼的氨基酸也發生改變,但不影響蛋白質的編碼。
2. 突變頻率(variant allele frequency,VAF):
假如某個snv點的VAF為0.125=12.5%,這表示:在覆蓋這個點的read數中,有12.5%的read來自B allele(即突變的那條allele),由此可以得出:25%的腫瘤細胞攜帶B allele。參照下圖。
等位基因頻率(也稱為:B allele frequency):10萬人,9萬人攜帶的的是geneA,1萬人攜帶的是geneB。則,等位基因頻率為:1/10=10%。
3. 突變注釋的工具:
snpEff。注釋snv的工具。
4. 突變原因:
G->T:氧化損傷導致 G->A(C->T):脫氨基導致
5. 非編碼蛋白突變的解釋:
同義突變,雖然對這個基因編碼的蛋白沒有影響。但是,會影響其他基因的表達。比如,APC有4個同義突變,這些突變會影響REEP5(它是一個tumor suppressor gene)的RNA表達值。
6.基因的拷貝數變異:
通常call CNV的工具會考慮的因素:normalization、純度、污染度、倍系。
疑問1:腫瘤病人的正常組織(如:OEC),或者正常人血液中的白細胞,對這些樣本進行靶向測序時,為什么有大量snp的突變頻率會在10%~30%之間呢?正常snp的突變頻率應該是50%或100%。
推測原因:(1)PCR擴增的偏好,也可稱為抽樣誤差。比如:該snp(A-》G,A突變為G)的突變頻率應該是50%,但是,由於擴增的偏好性,導致A allele被大量擴增,G allele擴增的少。
那么,假設攜帶正常A的allele被測了8,攜帶突變G的 allele被測了2次,則計算得到的G的allele frequency為2/10=20%。
(2)因為是靶向測序,所以有可能是此位點被不同的amplicon覆蓋。而amplicon在PCR擴增過程中會引起錯誤。
(3)基因組在此snp位置處存在拷貝數異常的現象。
(4)基因存在多拷貝的情況。比如,gene A在基因組中存在多個。
(5)純度所致。
(6)這些snp是否有組織特異性呢?在不同的組織中,存在這種狀況的snp有差異嗎?比如,某個snp在OEC中突變頻率是20%,而在WBC中是50%。存在這樣的情況嗎?
沒有驗證這種想法。
疑問2:肺癌病人的OEC與白細胞的靶向測序結果中,存在大量不一致的snp。因為所有細胞的DNA序列都是一致的,為什么會出現這樣的情況呢?
后來,我在查閱腦細胞somatic mutation時,看到一篇文獻說:其實各個組織中的基因組是不一致的。
疑問3:WGS的測序數據中,也存在很多這樣的突變頻率在10~30%之間的snv or snp。增加測序深度后,這樣的snv占的比例反而更高呢?這是為何呢?
這說明,這樣的snv是真實存在的,測序深度越高,越能檢測到更多這樣的snv。
因為是在腫瘤樣本,所以,這樣的突變可以用腫瘤組織的clone原理來解釋。即:腫瘤細胞可以被分為不同的群體,有一些群體攜帶這樣的snv,而其他的群體不存在這樣的snv。這又是為何呢?因為攜帶這些snv的細胞群體是在腫瘤形成過程的后期出現的。
但是,這個問題在測序深度很深時,應該會避免。因為大數據量時,會避免抽樣誤差。結果呢?進行上萬層的測序時,仍然存在這個問題。
重復序列:
LINE:重復序列。大腦發育過程中LINE很活躍。LINE通過反轉錄的方式,插到其它序列中。
6.7kb。轉錄成長的RNA,編碼反轉錄酶,將自己或其它序列插入到DNA中。
tanderm repeat:
repeatMaster工具,可發現基因組上的重復序列。
熟悉的基因:
abparts(BCR,B cell receptor):B cell抗原受體。作用是識別抗原。編碼B cell抗體的基因。B cell在骨髓中淋巴細胞中重排。
一個B cell攜帶一個抗體。
一般的染色體重排只發生在一條染色體上,但是,chrom14的abparts,在兩條染色體上都發生了重排。
TCR(Tcell receptor ):T cell抗原受體。作用是識別抗原。編碼T cell抗體的基因。分兩種TCR1和TCR2,外周血中主要是TCR2。
RB1:與細胞周期有關的一個基因。抑制磷酸化,抑制細胞增殖。
RCBTB2:在胞質中存在。與染色質濃縮有關。