生物信息學常識匯總


電子病歷方向

電子病歷方面主要是篩選出冠心病影響的因素,通過抽取數據、數據缺失處理、數據文本校對、數據對齊等方式進行預處理,經過各種病的數據統計以后能夠進行方向的確定,然后進行小樣本分析,從而進行探索,相當於在機器學習這個層面還需要重新進行學習,感覺也會增加自己的時間成本。

  • 心腦血管疾病致病因素
  • 時序序列疾病的預測

多組學

基因組學,轉錄組學,蛋白質組學,代謝組學方面有很多的數據庫可以做,而且基因組學和蛋白質組學方面的序列處理以及嵌入編碼等方法與之前接觸的詞向量預訓練模型有着相似的地方,從這個地方入手能夠更快進入方向,將深度學習的技能和經驗用到方法創新上面。

主要關注的方面為基因組學和蛋白組學方面

  • 用神經網絡對基因的表達量進行分類,有不同程度修飾的蛋白
  • 染色質可及性和轉錄調控
  • 從基因型數據預測基因表達的模型
  • 鑒定lncRNA
  • 研究單細胞中調控機制,如甲基化,亞型分析
  • 基因組高級結構
  • 基因組變異
  • 基於長讀長的數據利用深度學習進行base calling的技術
  • 預測非編碼元件變異的功能結果
  • Nature Methods雜志上的一篇文章指出,DeepSEA 可以輸入基因組序列,串聯出大規模項目(如ENCODE和表觀遺傳學路線等)的染色質圖譜,預測出一些重要調控位點的單核苷酸變異的影響,這些調控位點包括脫氧核糖核酸酶DNase敏感位點,轉錄因子結合位點,和組蛋白標記位點等
  • DeepBind 能發現RNA與DNA上的蛋白結合位點,預測突變的影響。
  • DeepVariant尋找基因變異,並且確定基因變異的位點,速度快,准確率高(谷歌)

首先要了解相關的基因方面的基本概念,包括基因結構、DNA結構、GWAS、SNP方面的結構等等。

基因的結構

DNA稱為脫氧核糖核酸,可以組成遺傳物質,一種由腺嘌呤脫氧核苷酸(dAMP )、胸腺嘧啶脫氧核苷酸(dTMP )、胞嘧啶脫氧核苷酸(dCMP )、鳥嘌呤脫氧核苷酸(dGMP )四種脫氧核糖核苷酸組成的長鏈聚合物

基因是DNA(脫氧核糖核酸)分子中含有特定遺傳信息的一段核苷酸序列的總稱,是具有遺傳效應的DNA分子片段,是控制生物性狀的基本遺傳單位,是生命的密碼,記錄和傳遞着遺傳信息。所有的基因都由4種鹼基組成。

外顯子和內含子,基因的編碼區域里面包含外顯子和內含子,外顯子是直接可以轉錄成RNA的一段片段,內顯子是經過修飾以后加入到轉錄的RNA中以后的片段,可以理解為內含子是外顯子的補充。

基因的非編碼區域,非編碼區域占據基因片段的百分之90以上位點,在RNA的轉錄過程中並不發生轉錄行為,但是會控制編碼區域的轉錄行為,比如啟動子、終止子等等其他的附屬功能都在這個區域,可以說這個區域是除了遺傳信息意外的比較重要的區域,控制着編碼區域基因的表達方式。

非編碼區域與內含子的區別,既然內含子和非編碼區域都不發生轉錄,那么肯定是有區別的,非編碼區域只控制基因如何表達,比如基因的開始和結束,對於每一次轉錄他的作用都是一樣的,並不會發生變化,存儲着這一段基因特有的編碼方式,但是內含子控制基因的編碼內容,對於同一段基因不同時間的轉錄方式和RNA的組合方式,都會受到內含子的控制,可以說內含子雖然不直接進行編碼,但是為基因片段在編碼的時候提供了轉錄的多樣性。

GWAS(Genome-wide association study),即全基因組關聯分析,是指在人類全基因組范圍內找出存在的序列變異,即單核苷酸多態性(SNP),從中篩選出與疾病相關的SNPs。通常與疾病相關的SNP變異大多不是在編碼蛋白質的DNA區域,相反,他們通常位於非編碼區域上,或者位於編碼基因的內含子上面,雖然這個變異不直接進行基因的編碼,但是是可以控制外顯子表達的重要基因片段。由於GWAS研究的各種研究設計方法以及遺傳統計方法無法從根本上消除人群混雜、多重比較造成的假陽性,我們需要通過重復研究來保證遺傳標記與疾病間的真關聯。
簡單來說,就是將基因測試人員分成兩組,一組為case組,一組為control組,分別對相同位置的snp位點計算同組內所有人的的cIBD得分,每個人都相對於其他人計算得分值,然后比較兩組得分的差異,差異比較大的snp為變異點,這不利於篩選多個位點的變異,變異其實就是當前個體相對於其他所有個體的差異性,現在的工作基本都是通過基因層面來數值化分析snp位點的差異,並不是通過變異位點的編碼序列來判定位點的變異,通過基因序列的差異性變化能夠分析出多個基因的差異性,能夠更加准確得判定序列的差異了,而且容易生成自動化方案。

比如,尋找糖尿病的致病基因是哪一個位點,可以找到乳腺癌的致病SNP是那些,等等

mRNA,為messenger RNA 的簡稱,或稱為信使RNA。mRNA是由DNA經由轉錄而來,帶着相應的遺傳訊息,為下一步轉譯成蛋白質提供所需的訊息。在細胞中,mRNA從合成到被降解,經過了數個步驟。在轉錄的過程中,第二型RNA聚合酶(RNA polymerase II)從DNA中復制出一段遺傳訊息到mRNA前體pre-mRNA(尚未經過修飾或是部份經過修飾的mRNA,稱作pre-messenger RNA,pre-mRNA,或是heterogeneous nuclear RNA,hnRNA)上。

MicroRNAs(miRNAs)是一種小的內源性非編碼RNA分子,大約由21-25個核苷酸組成。這些小的miRNA通常靶向一個或者多個mRNA,通過翻譯水平的抑制或斷裂靶標mRNAs而調節基因的表達,通過與mRNA結合控制基因表達的程度和水平。

miRNA-mRNA的結合預測,不同的miRNA控制着不同給表達程度,通過分析兩個序列的序列信息可以對基因表達的抑制程度進行預測,還可以分析出來是哪些位點的結合使他有着不同的表達程度,下面有着預測的數據庫.

等位基因和非等位基因,在一對同源染色體的同一位置上控制着相對性狀的基因,非等位基因是位於非同源染色體上或同源染色體的不同位置上控制着不同性狀的基因。等位基因之間存在相互作用。當一個等位基因決定生物性狀的作用強於另一等位基因並使生物只表現出其自身的性狀時,就出現了顯隱性關系。作用強的是顯性,作用被掩蓋而不能表現的為隱性。一對呈顯隱性關系的等位基因,顯性完全掩蓋隱性的是完全顯性(complete dominance),兩者相互作用而出現了介於兩者之間的中間性狀。等位基因的相互作用和非等位基因的相互作用。等位基因的相互作用表現為顯隱性關系,而非等位基因的相互作用表現統稱為上位效應。等位基因的差別可能是因為一個或者多個SNP導致等位基因差異,也有可能只是因為一個SNP差異導致。

SNP和SNV的區別,SNP(Single Nucleotide Polymorphisms)是單核苷酸多態的簡稱,SNV(Single Nucleotide Variant)是指單核苷酸結構變異,如果在一個物種中該單鹼基變異的頻率達到一定水平就叫SNP,而頻率未知(比如僅僅在極少數個體中發現)就叫SNV。

基因填充

基因型填充在現在的全基因組分析中扮演着重要的作用,因為在測量基因的時候,因為基因芯片的原因,會丟失一些基因,所以不同個體的基因測序的數量是不一樣的,這對我們的基因分析帶來一定程度上的困難,所以基因型填充很必要。

基因型填充可分為兩大類,一類是家系數據中的基因型填補,另一類是無關個體中的基因型填補。家系數據中的基因型共享染色體比較長,包含數千個SNP,而無關個體中共享染色體區域比較短,使得尋找匹配的單倍型成為一個挑戰。

基因型填充方法,期望最大化算法(EM),馬爾可夫鏈-蒙特卡洛算法,聚類算法,因馬爾可夫算法。

基因型填充的軟件:准確度優先,就是在填補基因的時候考慮每個缺失基因和所有位點的關系,這種方法所耗費的時間比較長,但是准確率高;另外一類方法是根據缺失位點附近的已分型位點來進行填補,這種方法計算量會減少,但是也犧牲了一部分正確率。

Assessment of factors affecting imputation accuracy,影響基因填充精度的因素,The SNP Density, sample size, and minor allele frequency of the SNP

Linkage Disequilibrium,計算差異不均衡是評價變異基因位點之間關系的一個評價,這個概念比較老,其實就是

生物信息中英文對照

Indel-插入缺失,chromosome-染色體,exome-外顯子組,whole genome sequence-WGS全基因組序列,intron-內含子,biallelic-等位基因,recalibration-再校准,low coverage - Low coverage whole genome sequencing-低通量測序全基因組序列,exome - Whole exome sequencing-全外顯子序列,high coverage - PCR-free high coverage whole genome sequencing-高通量全基因組序列,variation-變異,contig-重疊序列,Panel-面板,alleles-等位基因,trio-sWGRs-家系全基因雙,trio-sWGs-家系准全基因組,Linkage Disequilibrium-差異不均衡

基因數據庫-1000 Genome

基因組官方網站
NCBI官方網站基因瀏覽器
主要是SRA數據集,主要的優點是可以瀏覽,並且能夠根據瀏覽的基因通過[SRA toolkit下載] (https://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software)
基因組數據庫:ftp://ftp-trace.ncbi.nih.gov/1000genomes/
推薦比較好的基因組博客:https://www.plob.org/tag/sra/
http://www.bio-info-trainee.com/

1000 Genomes Project(縮寫為1KGP)於2008年1月啟動,是一項國際研究工作,旨在建立迄今為止最詳細的人類遺傳變異目錄。科學家計划在接下來的三年內使用新開發的技術對來自不同種族群體的至少一千名匿名參與者的基因組進行測序,這些技術更快,更便宜。 2010年,該項目完成了試驗階段,在“自然”雜志的一篇出版物中對此進行了詳細描述。2012年,1092個基因組的測序在Nature出版物中公布。 2015年,“自然”雜志上的兩篇論文報告了結果,項目的完成以及未來研究的機會。確定了許多罕見的變異,僅限於密切相關的群體,並分析了8個結構變異類別。

這里面有多個數據模式,有原始數據和分析處理以后的數據

  1. 原始數據-fastq,原始數據是直接從基因芯片得到的數據,是沒有經過Align的基因序列,文件格式為fastq格式,Linux可以通過zcat打開,也可以通過cat打開,每一行數據的分隔符為\t進行分割,原始數據的fastq文件大小大概為2g大小,所在的位置為ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/data_collections/1000_genomes_project/1000genomes.sequence.index,具體的圖片為下圖
    nQ9wkT.png
    fastq格式是生物信息分析中最常見的格式之一,通常測序的數據分為雙端測序和單端測序,雙端測序的數據含有兩個fastq格式的文件,單端測序的數據只有一個fastq格式的文件,1000 g數據都包含兩個fastq文件屬於雙端測序

fastq文件格式主要分四行:
第一行是用來區分不同reads的一個ID號,一般以@符號開頭,這一行是用來區分不同的reads,而這一行本身包含了很多的信息。Read Record Header,Flow Cell ID,Lane,Tile,Tile Coordinates,Barcode
第二行是測序的序列,也就是reads的序列
第三行一般是一個+號,或者與第一行的信息相同
第四行是鹼基質量值,是對第二行序列的鹼基的准確性的描述,一個鹼基會對應一個鹼基質量值,所以這一行和第二行長度是一樣的,如果不一樣就說明數據有問題,這一行的質量值是通過ACII碼來說明的,將碼進行轉換就可以得到分數值,ACII碼轉換為質量百分值的過程為,Q=-10 log10p標准,或者 Q=-10 log10p/(1-p)標准,兩種計算方式在高質量的時候沒有差別,在低質量的時候差異明顯
nQ9s1J.png
Fastq格式的解析細節可以參考該博客:https://www.cnblogs.com/djx571/p/9493934.html

  1. align的基因序列-cram格式文件
    包含三個文件夾,分別為低通量全基因序列、高通量全基因序列、全外顯子序列,都是fastq文件經過比對和對齊來產生的,
  • cram是sam文件的壓縮版本,有着很多優點,在保證信息完整的情況下可以將壓縮率加大,使文件變得更小,cram文件結構
  • bam則是sam的二進制版,在sam的基礎上運用二進制編碼,又極大的壓縮了sam文件的體積。
    nQ9rp4.png
    SAM文件主要由兩個部分構成
    header:標記了該SAM文件的一些基本信息,比如版本、按照什么方式排序的、Reference信息等等。
    本體:每行為一個reads,不同列記錄了不同的信息,列與列之間通過tab分隔。
    nQ9BhF.png
    QNAME:測序的reads的名字。
    FLAG:二進制數字之和,不同數字代表了不同的意義;比如正負鏈,R1/R2(雙端測序的哪一端)等。
    RNAME:map到參考基因組后的染色體名稱。
    POS:1-based 基因組起始位點。
    MAPQ:map的質量。
    CIGAR:一個數字與字母交替構成的字符串,標記了這段reads不同位置的match情況。不同字母的含義后邊介紹。
    RNEXT:如果是pair-end測序,這個為mate(另一端中對應的)的read的染色體名稱;否則為下一條read的染色體名稱。
    PNEXT:同上,read對應的起始位點。
    TLEN:模板的長度。
    SEQ:序列。
    QUAL:序列的質量打分(fasta文件中的那個)。

更加詳細的文件結構說明請參考博客總結,該博客總結的比較好:https://www.jianshu.com/p/a584d31418f3

  1. 基因分析文件-vcf文件
    VCF是用於描述SNP(單個鹼基上的變異),INDEL(插入缺失標記)和SV(結構變異位點)結果的文本文件。在GATK軟件中得到最好的支持,當然SAMtools得到的結果也是VCF格式,和GATK的CVF格式有點差別,GATK是一款分析SNp變異位點的軟件。

生物基因數據文件-博客非常詳細得解釋了vcf文件的組成結構:https://blog.csdn.net/u012150360/article/details/70666213
nQ90tU.png
GATK 是 Genome Analysis ToolKit 的縮寫,是一款從高通量測序數據中分析變異信息的軟件,是目前最主流的snp calling 軟件之一。GATK 設計之初是用於分析人類的全外顯子和全基因組數據,隨着不斷發展,現在也可以用於其他的物種,還支持CNV和SV變異信息的檢測。在官網上,提供了完整的分析流程,叫做GATK Best Practices。主要識別SNP和CNV 兩大類型的變異,每種變異類型又有Germline和Somatic的區別。通過GATK分析以后的文件類型為vcf為表格數據,通過excel或者pandas可以直接讀取,vcf中存儲數據為所有的變異位置和位點信息。

Germline指的是在胚胎發育早起出現的變異,這種變異會在所有細胞中廣泛存在,是可以遺傳給后代的變異;Somatic指的是體細胞變異,身體特定區域或者組織中出現的變異。通常不會遺傳給后代。

全外及全基因雙組學遺傳突變分析

從檢測范圍上看:
Panel,部分基因的組合,一般是由幾百個基因組成的DNA序列,這樣的分法是在全基因組比較昂貴的時候進行分的,現在價格比較低了,往往直接測整個基因組的序列的就可以,不用單獨針對一部分疾病的區段進行panel測序
nQ9yc9.png
家系准全基因組(trio-sWGsTM),是在增強全外的基礎上,增加了對人類全部四千多種致病基因的非編碼區的trio(一家三口)測序,可以檢測到近全部非編碼區的已知致病突變。雖然這不是標准意義上的全基因組30X測序(WGS),但在致病突變相對密集的全外顯子和臨床非編碼區的區域可以獲得100X測序深度,其數據質量要遠勝於WGS。

家系全基因雙組學(trio-sWGRsTM),是在家系准全基因組的基礎上,增加了一家三口的外周血白細胞全轉錄組測序(RNAseq),可以檢測分析白細胞表達的近萬個基因的表達譜和各種剪接變體。對於致病基因在白細胞表達並發揮功能的一些疾病,尤其是血液系統疾病、免疫系統疾病及一些大分子代謝疾病等,全基因雙組學策略不僅可以檢出已知的非編碼區致病突變,還有可能檢出新的致病變異,而且能夠得到變異在轉錄組層面的功能驗證(比如影響調控表達、影響剪接等)。

從檢測模式上看:
這里說的檢測模式是指先證者模式(即二代測序只測先證者,挑出懷疑變異再做一代驗證),還是核心家系(trio)模式(即二代測序同時檢測先證者和父母)。對於全外顯子、全基因組如此大的檢測范圍,只檢測先證者是不可取的。因為先證者模式無法判斷變異是否呈現家系共分離,即便挑幾個懷疑的變異去做家系一代驗證,也很容易挑錯,漏掉真正的致病突變。

先證模式還有一個坑,那就是即便挑了少數變異去做家系驗證,但也無法知道父母樣本是否來自真正的生物學父母,而trio模式則可以借助大數據比對來判斷生物學父母的可靠性。

trio-WES,或稱核心家系全外顯子組測序,已成為目前遺傳病診斷的基本配置。在此基礎上再增加核心家系的CNVseq、臨床非編碼區、轉錄組,就分別成為更為強大的增強全外家系、家系准全基因組、家系全基因雙組學策略。

從適用變異形式上看:
遺傳病的基因序列變異主要可以分小(點突變)、中(基因及內部外顯子的缺失重復)、大(100kb以上大片段CNV)這三類。

一般的Panel,臨床外顯子組,甚至全外顯子組,只能檢測小型變異,對中型和大型變異無法檢出,也就是若在Panel范圍內的某個基因及其相關區域存在致病的CNV,會大概率漏檢。

智因的trio-WES,可以利用家系全外顯子數據,對全部約2萬個基因進行外顯子缺失重復的篩查,同時實現小型和中型變異的檢出。傳統的中型變異檢測方法是MLPA,其局限性是只能檢測指定某一個基因是否存在外顯子缺失重復,而智因全外可以全面掃描幾乎全部2萬個基因的外顯子缺失重復。如果把MLPA比喻為“狙擊點射”,則智因全外的中型變異篩查則是“地毯式轟炸”。全外分析對連續兩個以上的外顯子缺失重復的准確性較高,但對單個外顯子拷貝數異常的檢測准確度不及MLPA,如果醫生強烈懷疑某個基因的問題,可以單加這個基因的MLPA檢測。二者各有優缺點,不必相互菲薄。

智因的trio(WES+CNVseq),或trio(全外+CNV),或稱家系增強全外,在WES的基礎上,增加了全基因組CNVseq檢測,不僅可以彌補大片段拷貝數變異的檢測,而且還能得到單親二倍體(UPD)的檢出,即可以全面涵蓋大中小三類變異。CNVseq方法已得到大樣本的驗證,其靈敏度和特異性與CMA芯片一致率。

綜合對比幾種檢測策略:
nQ96XR.png

數據格式解讀

有一些公共的基因填充網站,已經做好開源網站:
https://imputationserver.sph.umich.edu/index.html#!pages/home
網站的使用說明:
https://www.cnblogs.com/chenwenyan/p/10830207.html

samtools軟件安裝

官方軟件地址:http://www.htslib.org/
GitHub:https://github.com/samtools
Samtools軟件是一個能夠讀取SAM/BAM/CRAM的套件,同時也能夠讀取fastq等一系列基因文件,BCFtools是能夠處理BCF2/VCF/gVCF等文件的套件,兩個都依賴HTSlib庫。

Linux一般軟件都可以使用sudo apt install進行安裝,但是該軟件需要使用本地編譯安裝使用,下載samtools軟件,然后安裝一下步驟安裝

檢查安裝所需要的包是否完整,如果不完整需要先安裝其他的包

./configure
#編譯可執行文件
Make
#對可執行文件進行安裝
make install

samtool所依賴的部分包地址,按照地址下載,並且安裝上面的方法進行安裝就可以,如果缺少什么軟件,那么就再去安裝所需要的依賴,不過安裝的都是lib文件,所以不會出現二次依賴的問題
Samtools and HTSlib depend on the following libraries:

Samtools:
zlib http://zlib.net
curses or GNU ncurses (optional, for the 'tview' command)
http://www.gnu.org/software/ncurses/

HTSlib:
zlib http://zlib.net
libbz2 http://bzip.org/
liblzma http://tukaani.org/xz/
libcurl https://curl.haxx.se/
(optional but strongly recommended, for network access)
libcrypto https://www.openssl.org/
(optional, for Amazon S3 support; not needed on MacOS)

Linux上采用samtools進行軟件分析比較方便,但是用python又是一個問題了,通過安裝pysam可以解決這個問題,Linux下通過指令就可以直接安裝
pip install pysam
pysam綜合了htslib的所有功能,能夠對SAM/BAM/VCF/BCF/BED/GFF/GTF/FASTA/FASTQ等格式的文檔進行操作處理,為python處理基因數據提供了很好的輔助工具
pysam使用文檔:https://pysam.readthedocs.io/en/latest/index.html#

VCFtools的使用

VCFtools主要是用來打開vcf等文件的,同時進行snps的分析等操作,可以通過Linux等進行下載,其下載和說明文檔的地址:
https://vcftools.github.io/index.html

生物醫學文本挖掘


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM