從直覺上看,數據貌似很好理解,但真正要說清楚數據這個詞卻有點困難。
想一想,數據到底是什么呢?
數據的定義實際上包含兩方面內容,即信息的符號和設計。
其中信息的設計,也就是數據的格式,決定了讀者從中獲取有效信息的難易程度。
人們經常忽略的一個事實——數據的格式和數據本身同等重要。
生物信息學中的數據
傳統的生物學家可能會認為,生物信息學是一種將數據轉換成結果的軟件。
實則不然,生物信息學只是將一種格式的數據,轉換成另一種格式的數據。
這種格式轉換往往帶來信息的綜合和優化。
數據格式
生物信息學中幾種常見的數據格式:
- GenBank
- Fasta
- FastQ
- BED/GFF/GTF
- SAM/BAM
1.GenBank
文件后綴為.gb/.genbank,GenBank 是一種符合人們閱讀習慣的數據格式。
GenBank示例文件
數據來源:https://www.ncbi.nlm.nih.gov/nuccore/NC_045512.2/
LOCUS NC_045512 29903 bp ss-RNA linear VRL 18-JUL-2020 DEFINITION Severe acute respiratory syndrome coronavirus 2 isolate Wuhan-Hu-1, complete genome. ACCESSION NC_045512 VERSION NC_045512.2 GI:1798174254 DBLINK BioProject: PRJNA485481 KEYWORDS RefSeq. SOURCE Severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) ORGANISM Severe acute respiratory syndrome coronavirus 2 Viruses; Riboviria; Orthornavirae; Pisuviricota; Pisoniviricetes; Nidovirales; Cornidovirineae; Coronaviridae; Orthocoronavirinae; Betacoronavirus; Sarbecovirus. REFERENCE 1 (bases 1 to 29903) AUTHORS Wu,F., Zhao,S., Yu,B., Chen,Y.M., Wang,W., Song,Z.G., Hu,Y., Tao,Z.W., Tian,J.H., Pei,Y.Y., Yuan,M.L., Zhang,Y.L., Dai,F.H., Liu,Y., Wang,Q.M., Zheng,J.J., Xu,L., Holmes,E.C. and Zhang,Y.Z. TITLE A new coronavirus associated with human respiratory disease in China JOURNAL Nature 579 (7798), 265-269 (2020) PUBMED 32015508 REMARK Erratum:[Nature. 2020 Apr;580(7803):E7. PMID: 32296181] ... gene 21563..25384 /gene="S" /locus_tag="GU280_gp02" /gene_synonym="spike glycoprotein" /db_xref="GeneID:43740568" CDS 21563..25384 /gene="S" /locus_tag="GU280_gp02" /gene_synonym="spike glycoprotein" /note="structural protein; spike protein" /codon_start=1 /product="surface glycoprotein" /protein_id="YP_009724390.1" /db_xref="GI:1796318598" /db_xref="GeneID:43740568" /translation="MFVFLVLLPLVSSQCVNLTTRTQLPPAYTNSFTRGVYYPDKVFR SSVLHSTQDLFLPFFSNVTWFHAIHVSGTNGTKRFDNPVLPFNDGVYFASTEKSNIIR GWIFGTTLDSKTQSLLIVNNATNVVIKVCEFQFCNDPFLGVYYHKNNKSWMESEFRVY SSANNCTFEYVSQPFLMDLEGKQGNFKNLREFVFKNIDGYFKIYSKHTPINLVRDLPQ GFSALEPLVDLPIGINITRFQTLLALHRSYLTPGDSSSGWTAGAAAYYVGYLQPRTFL LKYNENGTITDAVDCALDPLSETKCTLKSFTVEKGIYQTSNFRVQPTESIVRFPNITN LCPFGEVFNATRFASVYAWNRKRISNCVADYSVLYNSASFSTFKCYGVSPTKLNDLCF TNVYADSFVIRGDEVRQIAPGQTGKIADYNYKLPDDFTGCVIAWNSNNLDSKVGGNYN YLYRLFRKSNLKPFERDISTEIYQAGSTPCNGVEGFNCYFPLQSYGFQPTNGVGYQPY RVVVLSFELLHAPATVCGPKKSTNLVKNKCVNFNFNGLTGTGVLTESNKKFLPFQQFG RDIADTTDAVRDPQTLEILDITPCSFGGVSVITPGTNTSNQVAVLYQDVNCTEVPVAI HADQLTPTWRVYSTGSNVFQTRAGCLIGAEHVNNSYECDIPIGAGICASYQTQTNSPR RARSVASQSIIAYTMSLGAENSVAYSNNSIAIPTNFTISVTTEILPVSMTKTSVDCTM YICGDSTECSNLLLQYGSFCTQLNRALTGIAVEQDKNTQEVFAQVKQIYKTPPIKDFG GFNFSQILPDPSKPSKRSFIEDLLFNKVTLADAGFIKQYGDCLGDIAARDLICAQKFN GLTVLPPLLTDEMIAQYTSALLAGTITSGWTFGAGAALQIPFAMQMAYRFNGIGVTQN VLYENQKLIANQFNSAIGKIQDSLSSTASALGKLQDVVNQNAQALNTLVKQLSSNFGA ISSVLNDILSRLDKVEAEVQIDRLITGRLQSLQTYVTQQLIRAAEIRASANLAATKMS ECVLGQSKRVDFCGKGYHLMSFPQSAPHGVVFLHVTYVPAQEKNFTTAPAICHDGKAH FPREGVFVSNGTHWFVTQRNFYEPQIITTDNTFVSGNCDVVIGIVNNTVYDPLQPELD SFKEELDKYFKNHTSPDVDLGDISGINASVVNIQKEIDRLNEVAKNLNESLIDLQELG KYEQYIKWPWYIWLGFIAGLIAIVMVTIMLCCMTSCCSCLKGCCSCGSCCKFDEDDSE PVLKGVKLHYT" ... #文件第一行LOCUS包括了許多數據元素,如: #名稱(NC_045512) #序列長度(29903 bp) #分子類型(ss-RNA, single strand RNA) #分子形狀(linear) #genbank分類簡稱(VRL, viral sequences) #最近一次修改時間(18-JUL-2020) LOCUS NC_045512 29903 bp ss-RNA linear VRL 18-JUL-2020
GenBank分類簡稱
簡稱 | 全稱 | 簡稱 | 全稱 |
---|---|---|---|
PRI | primate sequences | ROD | rodent sequences |
MAM | other mammalian sequences | VRT | other vertebrate sequences |
INV | invertebrate sequences | PLN | plant, fungal, and algal sequences |
BCT | bacterial sequences | VRL | viral sequences |
PHG | bacteriophage sequences | SYN | synthetic sequences |
UNA | unannotated sequences | EST | EST sequences (expressed sequence tags) |
PAT | patent sequences | STS | STS sequences (sequence tagged sites) |
GSS | GSS sequences (genome survey sequences) | HTG | HTG sequences (high-throughput genomic sequences) |
HTC | unfinished high-throughput cDNA sequencing | ENV | environmental sampling sequences |
眼尖的朋友一眼就發現了,GenBank示例文件展示的正是肆虐全球的新冠病毒(SARS-CoV-2)的基因組信息
新冠病毒結構示意圖
圖片來源:Alissa Eckert, MS; Dan Higgins, MAM CDC
如果了解新冠亞單位疫苗研制原理的小伙伴,大概會知道上面展示的 S 蛋白(spike glycoprotein),其受體結合區(RBD)片段含有多個 B 細胞和 T 細胞的表位,屬於理想的靶標抗原。
然而重組得到的靶蛋白免疫原性較差,往往需要經過一定的優化才能刺激機體產生足夠的抗體。
高福院士團隊通過二聚化 RBD 片段及免疫佐劑的配合,彌補了重組蛋白免疫原性差的短板,並成功誘導小鼠產生大量中和抗體[1]。
另外,目前世界大流行的新冠病毒 Delta 變異株,正是 S 蛋白的氨基酸位點發生了突變導致的[2]。
可見 GenBank 是一種相當復雜的存儲格式,存儲了豐富的生物信息。
2.Fasta
文件后綴通常為.fa/.fasta/.fna/.seq,可以記錄類似於 GenBank 中的序列信息。
Fasta 示例文件——新冠病毒 M 蛋白的基因序列
>NC_045512.2:26523-27191 M [organism=Severe acute respiratory syndrome coronavirus 2] [GeneID=43740571] [chromosome=] ATGGCAGATTCCAACGGTACTATTACCGTTGAAGAGCTTAAAAAGCTCCTTGAACAATGGAACCTAGTAA TAGGTTTCCTATTCCTTACATGGATTTGTCTTCTACAATTTGCCTATGCCAACAGGAATAGGTTTTTGTA TATAATTAAGTTAATTTTCCTCTGGCTGTTATGGCCAGTAACTTTAGCTTGTTTTGTGCTTGCTGCTGTT TACAGAATAAATTGGATCACCGGTGGAATTGCTATCGCAATGGCTTGTCTTGTAGGCTTGATGTGGCTCA GCTACTTCATTGCTTCTTTCAGACTGTTTGCGCGTACGCGTTCCATGTGGTCATTCAATCCAGAAACTAA CATTCTTCTCAACGTGCCACTCCATGGCACTATTCTGACCAGACCGCTTCTAGAAAGTGAACTCGTAATC GGAGCTGTGATCCTTCGTGGACATCTTCGTATTGCTGGACACCATCTAGGACGCTGTGACATCAAGGACC TGCCTAAAGAAATCACTGTTGCTACATCACGAACGCTTTCTTATTACAAATTGGGAGCTTCGCAGCGTGT AGCAGGTGACTCAGGTTTTGCTGCATACAGTCGCTACAGGATTGGCAACTATAAATTAAACACAGACCAT TCCAGTAGCAGTGACAATATTGCTTTGCTTGTACAGTAA
Fasta 文件包含序列的注釋信息行和鹼基序列行
# 序列的注釋信息行,以大於號(>)開頭 >NC_045512.2:26523-27191 M [organism=Severe acute respiratory syndrome coronavirus 2] [GeneID=43740571] [chromosome=] # 鹼基序列 ATGGCAGATTCCAACGGTACTATTACCGTTGAAGAGCTTAAAAAGCTCCTTGAACAATGGAACCTAGTAA TAGGTTTCCTATTCCTTACATGGATTTGTCTTCTACAATTTGCCTATGCCAACAGGAATAGGTTTTTGTA TATAATTAAGTTAATTTTCCTCTGGCTGTTATGGCCAGTAACTTTAGCTTGTTTTGTGCTTGCTGCTGTT TACAGAATAAATTGGATCACCGGTGGAATTGCTATCGCAATGGCTTGTCTTGTAGGCTTGATGTGGCTCA GCTACTTCATTGCTTCTTTCAGACTGTTTGCGCGTACGCGTTCCATGTGGTCATTCAATCCAGAAACTAA CATTCTTCTCAACGTGCCACTCCATGGCACTATTCTGACCAGACCGCTTCTAGAAAGTGAACTCGTAATC GGAGCTGTGATCCTTCGTGGACATCTTCGTATTGCTGGACACCATCTAGGACGCTGTGACATCAAGGACC TGCCTAAAGAAATCACTGTTGCTACATCACGAACGCTTTCTTATTACAAATTGGGAGCTTCGCAGCGTGT AGCAGGTGACTCAGGTTTTGCTGCATACAGTCGCTACAGGATTGGCAACTATAAATTAAACACAGACCAT TCCAGTAGCAGTGACAATATTGCTTTGCTTGTACAGTAA
3.FastQ
文件后綴為.fq/.fastq,用於存儲測序儀經過測序實驗讀取到的鹼基信息,可以看作是帶有鹼基質量評分的 Fasta 文件。
Fastq 文件中每 4 行為一條 read 的測序記錄
#第一行:@符號開頭的read id #第二行:鹼基序列行 #第三行:加號(+)后面可跟read id信息 #第四行:鹼基對應的質量值(Phred score)
FastQ 示例文件
@SRR16911464.1 1 length=35 GGCTGCTTATGTAGACAATTTTAGTCTTACTATTA +SRR16911464.1 1 length=35 BBBBBBFFFFFFGGGGGGGGGGHHHHGHGHHHHHH @SRR16911464.2 2 length=36 GACAATGCTCAGGTGTTACTTTCCAAAGTGCAGTGA +SRR16911464.2 2 length=36 AAABBFFFFFBBFGCGEGGGGGFFFFGFHHFHH5FG @SRR16911464.3 3 length=37 CTATGTAATCATCAGATTCAACTTGCATGGCATTGTT +SRR16911464.3 3 length=37 CCDEDFFFFFFFGGGGGGGGGGHHHHHHHHHHHHHHH
4.BED/GFF/GTF
這一類數據主要用於記錄基因組中特定區間的坐標信息,列之間以制表符(TAB)分隔,如基因(gene)、編碼區序列(CDS)和非編碼區(UTR)等。
BED
3 列的 BED 文件包括染色體、起始和終止
chr7 127471196 127472363 chr7 127472363 127473530 chr7 127473530 127474697
6 列的 BED 文件增加了名稱、值和鏈方向
chr7 127471196 127472363 Pos1 0 + chr7 127472363 127473530 Pos2 0 + chr7 127473530 127474697 Pos3 0 +
GFF/GTF
文件通常包含 9 列,以制表符分隔。
P.S. BED文件的坐標有效起始值是0,GFF/GTF的有效起始坐標是1
GFF 示例文件
chr1 . mRNA 1300 9000 . + . ID=mrna0001;Name=sonichedgehog chr1 . exon 1300 1500 . + . ID=exon00001;Parent=mrna0001 chr1 . exon 1050 1500 . + . ID=exon00002;Parent=mrna0001
GTF 與 GFF 文件的差異在第 9 列,GTF 的第 9 列必須是包括 gene_id 和 transcript_id 才是有效的格式。
5.SAM/BAM
BAM 文件是 SAM 文件的二進制格式,兩種文件都包含了 reads(FastQ)比對到參考基因組(Fasta)的信息。
一般包括下面11列信息,詳見:https://samtools.github.io/hts-specs/SAMv1.pdf
Col | Field | Brief description |
---|---|---|
1 | QNAME | Query template NAME |
2 | FLAG | bitwise FLAG |
3 | RNAME | Reference sequence NAME |
4 | POS | 1-based leftmost mapping POSition |
5 | MAPQ | MAPping Quality |
6 | CIGAR | CIGAR string |
7 | RNEXT | Reference name of the mate/next read |
8 | PNEXT | Position of the mate/next read |
9 | TLEN | observed Template LENgth |
10 | SEQ | segment SEQuence |
11 | QUAL | ASCII of Phred-scaled base QUALity+33(or 64) |
Linux下安裝使用samtools查看BAM文件
samtools view -h demo.bam | less -S @HD VN:1.5 SO:coordinate @SQ SN:Chromosome1 LN:3942983 V300035025L4C001R0081179505 99 Chromosome1 1 30 150M = 101 250 ATGGAGAATATATTGGATCTTTGGAATCAAGCCTTAGCTCAAATTGAGAAAAAGCTAAGCAAACCGAGCTTCGAAACTTGGATGAAGTCGACGAAAGCCCATTCGCTGCAAGGAGATACCTTAACCATCACCGCTCCCAATGAATTTGCC eeedaZeeefeeeeecdeeeeeecZcefeZ_eefefedecdeefeededeee_eeeUceeeeeeeeeedeabYedeeeeeedfeeeedfde^e_e`de_eeeefeedeeeeeeeeee`fefceecee]eeeffeceefebeeY]fcfaedNM:i:0 MD:Z:150 V300035025L4C006R0370133480 99 Chromosome1 1 30 150M = 238 387 ATGGAGAATATATTGGATCTTTGGAATCAAGCCTTAGCTCAAATTGAGAAAAAGCTAAGCAAACCGAGCTTCGAAACTTGGATGAAGTCGACGAAAGCCCATTCGCTGCAAGGAGATACCTTAACCATCACCGCTCCCAATGAATTTGCC eeXdeedeeeeeeeebceeeee_Ucee_deZeeeeeeddeeeXedabedeecdaeeeaWeeeedeeaeeeeeecbeee]eed^YeeeceQae`ae]eebeeeeeY`e^edbeNcceeeeeceeee]e\eedebaWc_fe_dbeeeed]beNM:i:0 MD:Z:150
若是SAM文件可先用samtools view進行轉換
$samtools view Usage: samtools view [options] <in.bam>|<in.sam>|<in.cram> [region ...] Options: -b output BAM -o FILE output file name [stdout]
有時候需要用到BAM的索引文件,需要先用samtools sort命令排序,再調用samtools index為BAM文件建立索引。
參考文獻
[1] Dai L, Zheng T, Xu K, et al. A Universal Design of Betacoronavirus Vaccines against COVID-19, MERS, and SARS. Cell. 2020;182(3):722-733.e11. doi:10.1016/j.cell.2020.06.035
[2] Korber B, Fischer WM, Gnanakaran S, et al. Tracking Changes in SARS-CoV-2 Spike: Evidence that D614G Increases Infectivity of the COVID-19 Virus. Cell. 2020;182(4):812-827.e19. doi:10.1016/j.cell.2020.06.043