基因是什么?——gene,allele,genotype
这里讲的是英文中对应的概念,并非是通常意义上的基因。
通俗讲,把一条染色体比喻成一列车位,每个车位存放的车的类型不同,有的是工程类的,用来干活的;有的是普通的小轿车,用来拉人的;有的是玩具车,用来玩的,那么gene就是这个车位,allele就是具体的车的牌子,型号。也就是说,gene表示这个车位的用途,allele表示这个车的性能。当有两条染色体时,就会有两列车位,同一排的gene,就会有两辆车,这两辆车的牌子,如果相同,而且都是性能好的,就叫显性纯合子,都是性能差的,就叫隐性纯合子;如果不相同,那就叫杂合子。
我们也可以把gene翻译成基因座,allele译为等位基因。同一个基因座上,只要序列不同,就是不同的allele,所以,突变(例如:SNP)会使得allele数目变多。
那么,什么是突变?
突变
常说的基因突变,本质,是在核酸序列相同位点上,我的一段核酸序列和你的一段核酸序列不一样。突变其实就是不同,只是把针对与参考序列的不同叫做了突变。常见的不同又叫做多态性,比如SNP。
突变的获得方式:
- 从父母各自的卵子中获得,叫胚系突变(germline mutation)。
- 受精卵发育过程中获得,全身细胞都有的,叫新发突变(de nove mutation)。
- 单独在各自组织细胞中发生的突变,不能遗传的,叫体细胞突变(somatic mutation)。
突变的类型:
突变的类型主要有替换(substitution),缺失(deletion),插入(insertion),倒位(inversion)。在不同的尺度上,这些突变类型有所不同。下面具体介绍
- 染色体倍数改变 Chromosomal aneuploidy
如21三体综合征 - 基因组结构变异Structural Variations (SVs)与拷贝数变异Copy Number Variations (CNVs)
一般来讲,SV常被定义为DNA上大于1 kb 片段的变更,如:缺失突变(deletions),插入突变(insertions)等。CNV 是基因组结构变异的重要组成部分,一般指长度为1 kb 以上的基因组大片段的拷贝数增加或者减少, 主要表现为亚显微水平的缺失和重复。 - 插入缺失Short insertion/deletions (Indels)
指的是在基因组的某个位置上所发生的小片段序列的插入或者删除,其长度通常在50bp以下。Indel是导致癌症激酶活化的常见机制。比如KRAS是一种激酶,某种突变会让它获得持续的激活,从而使癌细胞失控。 - 单核苷酸变异Single Nucleotide Variations (SNVs)
SNV是基因组水平上由单个核苷酸的变异,一般来说每个人的基因组都会有300万个单核苷酸的变异,可能出现在编码区、非编码区、基因间区。
突变对编码区域的影响
通常,突变对编码区的影响是针对于SNVs和Indels(insertion和deletion)。因为长片段的突变,通常会影响到编码区。
- (A)错义突变(missense mutation):
DNA的突变引起mRNA中密码子改变,编码另一种氨基酸。如G12A,表示第12号密码子由 G 突变为 A(其中 G 为野生型氨基酸 ,12 是氨基酸突变位置,A 为突变型氨基酸);错义突变造成不同氨基酸的替代,可能使得到的蛋白质无功能。例如,从AAA到AGA的变化将导致从编码赖氨酸到编码精氨酸的变化,但精氨酸与赖氨酸化学性质相似。在这样一种情况下,突变对表型几乎没有影响,因此该突变是中性的。 - (B)无义突变(nonsense mutation):
如 G12, 表示第 12 号密码子由 G 突变为终止密码子,代表编码终止;无义突变通常引起蛋白的功能异常,为致病突变。 - (C)同义突变(samesense mutation):
是指碱基被替换之后 ,产生新的密码子,但由于生物的遗传密码子存在简并现象,新旧密码子仍是同义断码子,所编码的氨基酸种类保持不变,因此同义突变通常不产生突变效应。 - (D)移码突变(frameshift mutation):
在正常的DNA中,碱基缺失或增加非3的整倍数,造成这位置之后的一系列编码发生移位错误的改变。如 p.D1866Rfs*17,表示第 1866 位氨基酸由 D 突变为 R,并继续编码 16 个氨基酸后终止; - (E)整码突变(inframe mutation):
如 c.295_297delGGC,p.G99del 表示核苷酸发生 3 的整数倍的缺失或插入,导致编码蛋白发生缺失或插入相应氨基酸。 - (F)剪切突变(splicing mutation):
如 BRCA1 c.5152+1G>T,表示 BRCA1 基因第 5152 核苷酸交界内含子区域第 1 位核苷酸发生突变,碱基由 G 突变为 T; - (G)融合突变:
如 EML4-ALK 融合,表示基因 EML4 与 ALK 发生融合变异;融合突变是非常重要的一种突变形式。 - (H)终止密码子突变:
与无义突变相反,碱基替换后使某一终止密码子变成具有氨基酸编码功能的遗传密码子,使本应终止延伸的多肽链合成异常地持续进行。 - (I)经典剪切位点突变:
转录的过程中会发生剪切,GT……AG是经典剪切位点, 某一位点突变会影响剪切。 - (J)动态突变:
某些单基因遗传形状的异常或疾病的发生,是由于DNA分子中某些短串联重复序列,尤其是基因编码序列或侧翼序列的三核苷酸重复扩增引起。三核苷酸重复的次数可随着世代的传递而呈现逐代递增的累加突变效应,因而被称为动态突变。已知的动态突变性疾病已超过30余种,如Huntington病,脆性X综合征、脊髓小脑共济失调、强直性肌营养不良等。 - (K)多态性变异(SNP):
单核苷酸多态性(single nucleotide polymorphism,SNP),DNA序列多态性又称为遗传多态性:指同一物种的不同个体、不同群体之间的DNA序列的差异性。大多数SNP是不致病的。
SNP的特点主要有:
(1)密度高/分布广:人类基因组中每1000个核苷酸就有一个SNP,人类30亿碱基中共有300万以上的SNPs。SNP 遍布于整个人类基因组中,可位于基因编码区、基因的非编码区以及基因间区(基因和基因之间)。
(2)富有代表性:某些位于基因内部的SNP 有可能直接影响蛋白质结构或表达水平, 因此, 它们可能代表疾病遗传机理中的某些作用因素。SNP自身的特性决定了它更适合于对复杂性状与疾病的遗传解剖以及基于群体的基因识别等方面的研究。
(3)遗传稳定性:与微卫星等重复序列多态性标记相比, SNP 具有更高的遗传稳定性。
SNP,SNV,CNV
SNP针对以某个SNV在群体中的多态性,当某个SNV在群体中的比例 >0.1% 时,会将这个SNV称作SNP。
CNV,只是在测序结果的比对过程中,发现的某段序列拷贝数的增多或减少,并不能确定他的位置。因为NGS都打散了,比对到参考序列的同一个位置上了。
具体的可参考:https://blog.csdn.net/weixin_39690958/article/details/112482178
以上对突变的遗传性,类型,有害性,做了简单的总结,那么问题又来了,参考序列是什么?
参考序列
人类基因组计划(HGP)/人类单倍型图谱计划(HapMap)/千人基因组计划(1000G)
为了获得参考序列,上世纪,开始了人类基因组计划,就是把一个人的基因组序列测出来。当时,测的不止一个人,具体几个忘了,但肯定不超过10个。测完发现,坏了,好多同一个位置不一样的啊,那参考个屁啊。但是呢,这些人又都是健康的,所以就把这种不一样叫了个高大上的名字——单核苷酸多态性(SNP)。也就是说,参考序列,其实不是一个人的序列,而是多个人的序列,组装在一块的,比如用常见的序列替换不常见的(我猜的,具体的组装规则不清楚)。
SNP,是一个针对群体的概念,那当初就测了几个人,那算群体?肯定不算,所以又搞了一个人类单倍型图谱计划,用来检测SNP。但是HapMap测的人数不够(当时还没有NGS),SNP的检测效力只有5%~10%,于是就有了千人基因组计划。1000G的SNP检测效力达到了1%。
参考基因组版本
目前最新的参考基因组版本,也是最为准确的组装,由基因组参考联合会 (Genome Reference Consortium)发布,正式名称为GRCh38(Genome Research Consortium human build 38),也被称为hg38(Human genome build 38, UCSC发布的版本),初版发布于2013年12月。
参考:
https://blog.sciencenet.cn/blog-479743-472592.html
https://www.yourgenome.org/facts/what-types-of-mutation-are-there
https://zhuanlan.zhihu.com/p/384473911
https://zhuanlan.zhihu.com/p/123205250
https://blog.csdn.net/weixin_39690958/article/details/112482178