SNP問題大集錦
最近小編對基因檢測很感興趣,也跟風去測了一下,這一測不要緊,嚇得小編幾天沒睡着覺,這不,檢測報告上稱小編的減肥能力弱,雖然小編一家都是胖子,唯有小編一個瘦子,原本以為是基因發生了突變,然並卵,是未到時候......
難過之后小編恢復了理智,憑什么你說小編減肥能力弱,小編表示不服,仔細讀了報告后發現,原來是這些SNP位點搞的鬼,又是SNP!
話說小編最近收到許多關於SNP的問題,現整理如下:
1、什么是SNP?
單核苷酸多態性(single nucleotide polymorphism,發音為“snips”),主要是指在基因組水平上由單個核苷酸的變異所引起的 DNA 序列多態性,這種多態性只涉及到單個鹼基的變異。SNP 在人類基因組中的發生頻率比較高,大約平均每1000個鹼基對中就有一個多態位點,估計其總數可達300萬個甚至更多。
2、為什么說SNPs是二等位基因系統,而不像RFLP和SSR是多等位基因系統?
因為組成DNA的鹼基有四種,但SNP一般只有兩種鹼基組成,所以它是一種二態的標記,又叫雙等位基因(biallelic)。由於SNP的二態性,非此即彼,在基因組篩選中SNPs 只需要+/-的分析,而不用分析片段的長度。 SNP所表現的多態性只涉及到單個鹼基的變異,這種變異可由單個鹼基的轉換(嘧啶和嘧啶之間或者嘌呤和嘌呤之間的交換transition)或顛換(transversion嘧啶和嘌呤之間的交換)所引起,也可由鹼基的插入或缺失所致。但通常所說的SNP並不包括后兩種情況,而具有轉換型變異的SNP約占2/3,其它幾種變異的發生幾率相似。
3、SNP在基因組內的形式有哪些,都會對生物表型有影響嗎?
在基因組DNA中,任何鹼基均有可能發生變異,因此SNP既有可能在基因序列內,也有可能在基因以外的非編碼序列上。總的來說,有三類:位於基因周邊的SNPs(pSNPs),位於基因間的SNPs(iSNPs),以及位於編碼區內的SNP(codingSNP,cSNP)。cSNP比較少,但由於它發生在編碼區內,且在遺傳性疾病研究中卻具有重要意義,因此cSNP的研究更受關注。從對生物的遺傳性狀的影響上來看,cSNP又可分為2種:一種是同義cSNP(synonymous cSNP),即SNP所致的編碼序列的改變並不影響其所翻譯的蛋白質的氨基酸序列,突變鹼基與未突變鹼基的含義相同;另一種是非同義cSNP(non-synonymous cSNP),指鹼基序列的改變可使以其為藍本翻譯的蛋白質序列發生改變,從而影響了蛋白質的功能。這種改變常是導致生物性狀改變的直接原因。cSNP中約有一半為非同義cSNP。
4、SNP在人群中的基因頻率有什么趨勢?
首先,先形成的SNP在人群中常有更高的頻率,后形成的SNP所占的比率較低。
其次,各地各民族人群中特定SNP並非一定都存在,其所占比率也不盡相同,但大約有
85%應是共通的。
5、SNP作為第三代分子標記相比前兩代的分子標記有哪些特點?
SNP數量多,密度高;
SNP適於快速、規模化篩查;
SNP易於基因分型,等位基因頻率容易估計,易實現分析的自動化;
SNP具有更高的遺傳穩定性。
6、SNP與點突變有什么區別?
SNP是單鹼基多態性,是一個群體概念,這個差異占群體的1%以上。若 germlinemutation頻率<1%,我們認為是一個點突變。
SNP是各種生物都有的,通過同源基因比對得到的,一般不會發生變化,而點突變只對單一基因而言,所以從數量上SNP比點突變多得多。
如果突變發生在生殖細胞,則可以遺傳,但是只要這個突變群沒有達到總群體的1%,它就只有一個突變株/系,達到了1%就是多態性了。
7、SNV和SNP的區別?
SNV,即單核苷酸位點變異(single nucleotide variants),SNP,即單核苷酸多態性(single nucleotide polymorphism),這兩個概念都是指單核苷酸的改變,只不過SNP一般是二態的,而SNV沒有這樣的限制。
另外,如果在一個物種中該單鹼基變異的頻率達到一定水平就叫SNP,而頻率未知(比如僅僅在一個個體中發現)就叫SNV。
8、SNP的研究思路?
首先尋找研究相關的 SNP 位點
(1) 如果是單基因遺傳,特別是罕見遺傳的疾病,可以通過外顯子測序對一個家系的幾個個體進行測序,篩選低頻突變,隨后找那種能改變蛋白功能的突變,最后做共分離分析。
(2) 如果是多基因病或者質量性狀定位,那么2個方法,一是,全基因組關聯分析GWAS,用散發型個體,做關聯分析。不過這種方法要的樣本量比較大,一般都要大幾百個,多的都要好幾千。二是,基因家系的連鎖分析,這個主要是定位,然后在后續做一些東西,一般用芯片或者全基因組重測序或者簡化基因組測序。
(3) 還可以通過參考資料鎖定研究相關的基因,通過數據庫查到基因內部的 SNP 位點。
(4) 查找相關的參考文獻,找到研究相關的 SNP 位點。
然后,開始進行SNP位點驗證,采用對照組和實驗組的大量樣本,驗證尋找到的實驗相關的 SNP 位點;
(1) SNaPshot 法:基於多重PCR和ABI 3730xl 測序平台的 SNP 分型檢測;
(2) 直接測序法:基於一代測序平台的SNP分型檢測;
(3) 質譜法:基於Sequenom平台的SNP分型檢測;
(4) Taqman探針法:基於熒光定量PCR儀平台的SNP分型檢測,等等。
最后根據已有的對照組和實驗組的SNP分型結果與實驗目的進行關聯分析:
(1) 與疾病的關聯分析等;
(2) LOH分析;
(3) 遺傳連鎖分析:
(4) 單倍型分析。
還可以進行包括HW平衡分析、聚類分析、品種鑒定、單體型分析等數據分析。
9、如何篩選SNP位點?
對於候選SNP的篩選,有很多種考慮,總的趨勢和出發點是能夠涵蓋的SNP越多越好。
(1) 選擇minority allele頻率大於5%;
(2) 正式試驗前可選30人左右的人群做該基因的測序,看看有沒有和數據庫不一致的SNP;
(3) 除了TagSNP外,還可選擇進化保守區的SNP;
(4) 看看該區域內有沒有其他人群相關功能或易感陽性SNP的報道;
(5) 改變氨基酸編碼的SNP。
目前更傾向於篩選對於某一疾病的重要候選基因,對其基因全長進行重新測序(這一過程稱為SNP rediscovery 或者是SNP resequencing),然后選出有意義的位點再進行genotype,並構建haplotype。
10、對於測序得到的SNP位點,如何檢測是否為新發現的位點?
對於新發現的SNP位點,需要判斷這些SNP位點是否已知。如果該SNP位點是前人報道,需要查找rs號和引用參考文獻,如果為新發現的位點則需要將該位點遞交到NCBI上,獲得ss號。這樣在投稿論文是可以為文章增色不少。
具體操作如下:
(1) 輸入網址www.pubmed.com 進入pubmed主頁,選擇SNP,輸入要查找的基因名稱,點search,出現的網頁為該基因已發現的所有SNP位點。
(2) NCBI上有Limits,可以限制條件,縮小尋找范圍,減少工作量。因為我一般做的是人的基因,所以在Limits中的Organism選擇Homo sapiens,根據SNP位點在全基因組中的位置,在function class中選擇相應的區域,如coding、 intron等,還有一個常用的是SNP Class,選擇完畢后,點go即可。
(3) 限定條件后,候選SNP位點就會變得很少。如果該位點在編碼區,如:p.Gly499Arg,則在 ‘編輯’ 里選擇 ‘在此頁中查找’ 輸入:p.Gly499Arg 或者499,如果在網頁中有相同的標志,則還需點擊相對應的rs號碼進入,查看rs號中的參考序列和自己的對照序列,正向和反向互補配對進行比對,確認是否為自己測序發現的位點。
(4) 如果你發現的SNP位點通過上一步驟沒有發現,還不能確定你的位點是新發現的位點,需要避免由於該基因的參考序列不同或者自己本身在計算變異位點時存在失誤而導致查詢不到,常常還需要將該位點前數個或者數十個鹼基輸入在本頁中查找欄中查找,同時,該區域中鹼基的方向互補配對序列也需輸入查詢。
(5) 經過第三步和第四步均未查到的變異即可認為是新發現的變異。恭喜你,現在就需要通過NCBI網站中的submit進行遞交,獲取ss號。
11、SNP的功能驗證?
前面SNP的相關性分析只是通過樣本得到的信息經統計分析而得到的結論,但是是否真的具有生物學功能需要有功能驗證試驗,這樣以后的實用性將更大,也更具有說服力。
SNP功能驗證經典的驗證方法是模式生物,基因定點敲出,但費用高、周期長,還不一定能模擬出表型。
或者是做生物信息分析,然后研究功能通路的改變,再用實驗驗證,這個方法最大的問題是基因表達的改變一般都需要組織,而有些復雜疾病很難取到組織。
12、想要在SCI雜志上發表影響因子大於5的SNP文章,需要做哪些准備工作?
除了前面說的研究方法、研究思路及使用恰當的功能驗證方法外,對於疾病研究、病理樣本和對照樣本要有非常大的樣本量,通常是幾百例,最好是大於1000例。另外,一定要結合相關的環境風險因素一起進行統計學分析,比如LD,單體型分析等等。