這是我們論壇上的一個題目:生信編程直播第一題:人類基因組的外顯子區域到底有多... 
 
外顯子組的序列僅占全基因組序列的1%左右,但大多數與疾病相關的變異位於外顯子區。通過外顯子組測序可鑒定約8萬個變異,全基因組測序可鑒定300萬個變異,因此與全基因組測序相比,外顯子組測序不僅費用較低,數據闡釋也更為簡單。外顯子組測序技術以其經濟有效的優勢廣泛應用於孟德爾遺傳病、罕見綜合征及復雜疾病的研究,並於2010年被Science雜志評為十大突破之一。
任務:外顯子到底占基因組什么樣的百分比,是哪些位點。
去NCBI里面拿到 consensus coding sequence (CCDS)記錄(可以查詢hg19上的所有基因的位置,chromosome nc_accession gene gene_id ccds_id ccds_status cds_strand cds_from cds_to cds_locations match_type)
外顯子的側翼長度:在每個斷裂基因的兩側都有一段在轉錄調控中起重要作用的非編碼序列,稱為側翼序列。側翼基因:在第一個和最后一個外顯子的外側,都有一段不被轉錄的非編碼區。稱為側翼序列,包括啟動子(promoter),增強子(enhancer),終止子(terminator)等。側翼序列調節基因表達。側翼序列就是側翼基因。側翼區特異性可以作為基因探針,側翼基因在第一個和最后一個外顯子的外側,都有一段不被轉錄的非編碼區·稱為側翼序列。相當於有一個參照。
注意,基因與基因之間是可能有交疊的區域的。
1. 什么是外顯子?什么是cds?
CDS: "A contiguous sequence which begins with, and includes, a start codon and ends with, and includes, a stop codon."
Exon: "A region of the transcript sequence within a gene which is not removed from the primary RNA transcript by RNA splicing."
外顯子是形成mRNA后剪接剩下的部分,包括UTR區與CDS,而CDS則是真正編碼蛋白的Coding Sequence;
2.此次作業雖然是統計人類基因組的外顯子區域,但是還是統計CDS部分,不統計外顯子;
3.去重不去除在染色體上overlap的部分,只去除完全一樣的部分;
1.首先,根據老師的做法是,從NCBI上下載CCDS的最新版本文件,ftp://ftp.ncbi.nlm.nih.gov/pub/C ... an/CCDS.current.txt
import csv ncbi_file="CCDS.20160908.txt" with open(ncbi_file,'r')as f1: file=csv.reader(f1,delimiter="\t") next(file) sum=0 exon_dict={} # dict is faster than list for record in file: if record[9] != "-": chr=record[0] exon_list=record[9].lstrip("[").rstrip("]").split(", ") # print(exon_list) for range in exon_list: exon=chr+":"+range # print(exon) if exon not in exon_dict: exon_dict[exon]="" exon_start=int(range.split("-")[0]) exon_end=int(range.split("-")[1]) # print(exon_start) sum+=exon_end-exon_start print(sum)
2.從UCSC下載所有CDS的region來驗證,下載方法是使用ucsc的table browser,鏈接 在這里
3.從Ensembl下載所有的CDS進行驗證,使用的是Ensembl的Biomart,鏈接在這里:
