BGI-College生信入門系列——2、什么是數據?


從直覺上看,數據貌似很好理解,但真正要說清楚數據這個詞卻有點困難。

想一想,數據到底是什么呢?

數據的定義實際上包含兩方面內容,即信息的符號設計

其中信息的設計,也就是數據的格式,決定了讀者從中獲取有效信息的難易程度。

人們經常忽略的一個事實——數據的格式和數據本身同等重要。

生物信息學中的數據

傳統的生物學家可能會認為,生物信息學是一種將數據轉換成結果的軟件。

實則不然,生物信息學只是將一種格式的數據,轉換成另一種格式的數據。

這種格式轉換往往帶來信息的綜合和優化。

數據格式

生物信息學中幾種常見的數據格式:

  1. GenBank
  2. Fasta
  3. FastQ
  4. BED/GFF/GTF
  5. SAM/BAM

1.GenBank

文件后綴為.gb/.genbank,GenBank 是一種符合人們閱讀習慣的數據格式。

GenBank示例文件

數據來源:https://www.ncbi.nlm.nih.gov/nuccore/NC_045512.2/

LOCUS       NC_045512              29903 bp ss-RNA     linear   VRL 18-JUL-2020
DEFINITION  Severe acute respiratory syndrome coronavirus 2 isolate Wuhan-Hu-1,
            complete genome.
ACCESSION   NC_045512
VERSION     NC_045512.2  GI:1798174254
DBLINK      BioProject: PRJNA485481
KEYWORDS    RefSeq.
SOURCE      Severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2)
  ORGANISM  Severe acute respiratory syndrome coronavirus 2
            Viruses; Riboviria; Orthornavirae; Pisuviricota; Pisoniviricetes;
            Nidovirales; Cornidovirineae; Coronaviridae; Orthocoronavirinae;
            Betacoronavirus; Sarbecovirus.
REFERENCE   1  (bases 1 to 29903)
  AUTHORS   Wu,F., Zhao,S., Yu,B., Chen,Y.M., Wang,W., Song,Z.G., Hu,Y.,
            Tao,Z.W., Tian,J.H., Pei,Y.Y., Yuan,M.L., Zhang,Y.L., Dai,F.H.,
            Liu,Y., Wang,Q.M., Zheng,J.J., Xu,L., Holmes,E.C. and Zhang,Y.Z.
  TITLE     A new coronavirus associated with human respiratory disease in
            China
  JOURNAL   Nature 579 (7798), 265-269 (2020)
   PUBMED   32015508
  REMARK    Erratum:[Nature. 2020 Apr;580(7803):E7. PMID: 32296181]
...
     gene            21563..25384
                     /gene="S"
                     /locus_tag="GU280_gp02"
                     /gene_synonym="spike glycoprotein"
                     /db_xref="GeneID:43740568"
     CDS             21563..25384
                     /gene="S"
                     /locus_tag="GU280_gp02"
                     /gene_synonym="spike glycoprotein"
                     /note="structural protein; spike protein"
                     /codon_start=1
                     /product="surface glycoprotein"
                     /protein_id="YP_009724390.1"
                     /db_xref="GI:1796318598"
                     /db_xref="GeneID:43740568"
                     /translation="MFVFLVLLPLVSSQCVNLTTRTQLPPAYTNSFTRGVYYPDKVFR
                     SSVLHSTQDLFLPFFSNVTWFHAIHVSGTNGTKRFDNPVLPFNDGVYFASTEKSNIIR
                     GWIFGTTLDSKTQSLLIVNNATNVVIKVCEFQFCNDPFLGVYYHKNNKSWMESEFRVY
                     SSANNCTFEYVSQPFLMDLEGKQGNFKNLREFVFKNIDGYFKIYSKHTPINLVRDLPQ
                     GFSALEPLVDLPIGINITRFQTLLALHRSYLTPGDSSSGWTAGAAAYYVGYLQPRTFL
                     LKYNENGTITDAVDCALDPLSETKCTLKSFTVEKGIYQTSNFRVQPTESIVRFPNITN
                     LCPFGEVFNATRFASVYAWNRKRISNCVADYSVLYNSASFSTFKCYGVSPTKLNDLCF
                     TNVYADSFVIRGDEVRQIAPGQTGKIADYNYKLPDDFTGCVIAWNSNNLDSKVGGNYN
                     YLYRLFRKSNLKPFERDISTEIYQAGSTPCNGVEGFNCYFPLQSYGFQPTNGVGYQPY
                     RVVVLSFELLHAPATVCGPKKSTNLVKNKCVNFNFNGLTGTGVLTESNKKFLPFQQFG
                     RDIADTTDAVRDPQTLEILDITPCSFGGVSVITPGTNTSNQVAVLYQDVNCTEVPVAI
                     HADQLTPTWRVYSTGSNVFQTRAGCLIGAEHVNNSYECDIPIGAGICASYQTQTNSPR
                     RARSVASQSIIAYTMSLGAENSVAYSNNSIAIPTNFTISVTTEILPVSMTKTSVDCTM
                     YICGDSTECSNLLLQYGSFCTQLNRALTGIAVEQDKNTQEVFAQVKQIYKTPPIKDFG
                     GFNFSQILPDPSKPSKRSFIEDLLFNKVTLADAGFIKQYGDCLGDIAARDLICAQKFN
                     GLTVLPPLLTDEMIAQYTSALLAGTITSGWTFGAGAALQIPFAMQMAYRFNGIGVTQN
                     VLYENQKLIANQFNSAIGKIQDSLSSTASALGKLQDVVNQNAQALNTLVKQLSSNFGA
                     ISSVLNDILSRLDKVEAEVQIDRLITGRLQSLQTYVTQQLIRAAEIRASANLAATKMS
                     ECVLGQSKRVDFCGKGYHLMSFPQSAPHGVVFLHVTYVPAQEKNFTTAPAICHDGKAH
                     FPREGVFVSNGTHWFVTQRNFYEPQIITTDNTFVSGNCDVVIGIVNNTVYDPLQPELD
                     SFKEELDKYFKNHTSPDVDLGDISGINASVVNIQKEIDRLNEVAKNLNESLIDLQELG
                     KYEQYIKWPWYIWLGFIAGLIAIVMVTIMLCCMTSCCSCLKGCCSCGSCCKFDEDDSE
                     PVLKGVKLHYT"
...
#文件第一行LOCUS包括了許多數據元素,如:
#名稱(NC_045512)
#序列長度(29903 bp)
#分子類型(ss-RNA, single strand RNA)
#分子形狀(linear)
#genbank分類簡稱(VRL, viral sequences)
#最近一次修改時間(18-JUL-2020)
LOCUS       NC_045512              29903 bp ss-RNA     linear   VRL 18-JUL-2020

 

GenBank分類簡稱

簡稱 全稱 簡稱 全稱
PRI primate sequences ROD rodent sequences
MAM other mammalian sequences VRT other vertebrate sequences
INV invertebrate sequences PLN plant, fungal, and algal sequences
BCT bacterial sequences VRL viral sequences
PHG bacteriophage sequences SYN synthetic sequences
UNA unannotated sequences EST EST sequences (expressed sequence tags)
PAT patent sequences STS STS sequences (sequence tagged sites)
GSS GSS sequences (genome survey sequences) HTG HTG sequences (high-throughput genomic sequences)
HTC unfinished high-throughput cDNA sequencing ENV environmental sampling sequences

眼尖的朋友一眼就發現了,GenBank示例文件展示的正是肆虐全球的新冠病毒(SARS-CoV-2)的基因組信息

 

新冠病毒結構示意圖

圖片來源:Alissa Eckert, MS; Dan Higgins, MAM CDC

如果了解新冠亞單位疫苗研制原理的小伙伴,大概會知道上面展示的 S 蛋白(spike glycoprotein),其受體結合區(RBD)片段含有多個 B 細胞和 T 細胞的表位,屬於理想的靶標抗原。

然而重組得到的靶蛋白免疫原性較差,往往需要經過一定的優化才能刺激機體產生足夠的抗體。

高福院士團隊通過二聚化 RBD 片段及免疫佐劑的配合,彌補了重組蛋白免疫原性差的短板,並成功誘導小鼠產生大量中和抗體[1]。

另外,目前世界大流行的新冠病毒 Delta 變異株,正是 S 蛋白的氨基酸位點發生了突變導致的[2]。

可見 GenBank 是一種相當復雜的存儲格式,存儲了豐富的生物信息。

2.Fasta

文件后綴通常為.fa/.fasta/.fna/.seq,可以記錄類似於 GenBank 中的序列信息。

Fasta 示例文件——新冠病毒 M 蛋白的基因序列

>NC_045512.2:26523-27191 M [organism=Severe acute respiratory syndrome coronavirus 2] [GeneID=43740571] [chromosome=]
ATGGCAGATTCCAACGGTACTATTACCGTTGAAGAGCTTAAAAAGCTCCTTGAACAATGGAACCTAGTAA
TAGGTTTCCTATTCCTTACATGGATTTGTCTTCTACAATTTGCCTATGCCAACAGGAATAGGTTTTTGTA
TATAATTAAGTTAATTTTCCTCTGGCTGTTATGGCCAGTAACTTTAGCTTGTTTTGTGCTTGCTGCTGTT
TACAGAATAAATTGGATCACCGGTGGAATTGCTATCGCAATGGCTTGTCTTGTAGGCTTGATGTGGCTCA
GCTACTTCATTGCTTCTTTCAGACTGTTTGCGCGTACGCGTTCCATGTGGTCATTCAATCCAGAAACTAA
CATTCTTCTCAACGTGCCACTCCATGGCACTATTCTGACCAGACCGCTTCTAGAAAGTGAACTCGTAATC
GGAGCTGTGATCCTTCGTGGACATCTTCGTATTGCTGGACACCATCTAGGACGCTGTGACATCAAGGACC
TGCCTAAAGAAATCACTGTTGCTACATCACGAACGCTTTCTTATTACAAATTGGGAGCTTCGCAGCGTGT
AGCAGGTGACTCAGGTTTTGCTGCATACAGTCGCTACAGGATTGGCAACTATAAATTAAACACAGACCAT
TCCAGTAGCAGTGACAATATTGCTTTGCTTGTACAGTAA
 

Fasta 文件包含序列的注釋信息行和鹼基序列行

# 序列的注釋信息行,以大於號(>)開頭
>NC_045512.2:26523-27191 M [organism=Severe acute respiratory syndrome coronavirus 2] [GeneID=43740571] [chromosome=]
# 鹼基序列
ATGGCAGATTCCAACGGTACTATTACCGTTGAAGAGCTTAAAAAGCTCCTTGAACAATGGAACCTAGTAA
TAGGTTTCCTATTCCTTACATGGATTTGTCTTCTACAATTTGCCTATGCCAACAGGAATAGGTTTTTGTA
TATAATTAAGTTAATTTTCCTCTGGCTGTTATGGCCAGTAACTTTAGCTTGTTTTGTGCTTGCTGCTGTT
TACAGAATAAATTGGATCACCGGTGGAATTGCTATCGCAATGGCTTGTCTTGTAGGCTTGATGTGGCTCA
GCTACTTCATTGCTTCTTTCAGACTGTTTGCGCGTACGCGTTCCATGTGGTCATTCAATCCAGAAACTAA
CATTCTTCTCAACGTGCCACTCCATGGCACTATTCTGACCAGACCGCTTCTAGAAAGTGAACTCGTAATC
GGAGCTGTGATCCTTCGTGGACATCTTCGTATTGCTGGACACCATCTAGGACGCTGTGACATCAAGGACC
TGCCTAAAGAAATCACTGTTGCTACATCACGAACGCTTTCTTATTACAAATTGGGAGCTTCGCAGCGTGT
AGCAGGTGACTCAGGTTTTGCTGCATACAGTCGCTACAGGATTGGCAACTATAAATTAAACACAGACCAT
TCCAGTAGCAGTGACAATATTGCTTTGCTTGTACAGTAA

3.FastQ

文件后綴為.fq/.fastq,用於存儲測序儀經過測序實驗讀取到的鹼基信息,可以看作是帶有鹼基質量評分的 Fasta 文件。

Fastq 文件中每 4 行為一條 read 的測序記錄

#第一行:@符號開頭的read id
#第二行:鹼基序列行
#第三行:加號(+)后面可跟read id信息
#第四行:鹼基對應的質量值(Phred score)
 

FastQ 示例文件

@SRR16911464.1 1 length=35
GGCTGCTTATGTAGACAATTTTAGTCTTACTATTA
+SRR16911464.1 1 length=35
BBBBBBFFFFFFGGGGGGGGGGHHHHGHGHHHHHH
@SRR16911464.2 2 length=36
GACAATGCTCAGGTGTTACTTTCCAAAGTGCAGTGA
+SRR16911464.2 2 length=36
AAABBFFFFFBBFGCGEGGGGGFFFFGFHHFHH5FG
@SRR16911464.3 3 length=37
CTATGTAATCATCAGATTCAACTTGCATGGCATTGTT
+SRR16911464.3 3 length=37
CCDEDFFFFFFFGGGGGGGGGGHHHHHHHHHHHHHHH
 

4.BED/GFF/GTF

這一類數據主要用於記錄基因組中特定區間的坐標信息,列之間以制表符(TAB)分隔,如基因(gene)、編碼區序列(CDS)和非編碼區(UTR)等。

BED

3 列的 BED 文件包括染色體、起始和終止

chr7  127471196  127472363
chr7  127472363  127473530
chr7  127473530  127474697
 

6 列的 BED 文件增加了名稱、值和鏈方向

chr7  127471196  127472363  Pos1  0  +
chr7  127472363  127473530  Pos2  0  +
chr7  127473530  127474697  Pos3  0  +
 

GFF/GTF

文件通常包含 9 列,以制表符分隔。

P.S. BED文件的坐標有效起始值是0,GFF/GTF的有效起始坐標是1

GFF 示例文件

chr1  .  mRNA  1300  9000  .  +  .  ID=mrna0001;Name=sonichedgehog
chr1  .  exon  1300  1500  .  +  .  ID=exon00001;Parent=mrna0001
chr1  .  exon  1050  1500  .  +  .  ID=exon00002;Parent=mrna0001
 

GTF 與 GFF 文件的差異在第 9 列,GTF 的第 9 列必須是包括 gene_id 和 transcript_id 才是有效的格式。

5.SAM/BAM

BAM 文件是 SAM 文件的二進制格式,兩種文件都包含了 reads(FastQ)比對到參考基因組(Fasta)的信息。

一般包括下面11列信息,詳見:https://samtools.github.io/hts-specs/SAMv1.pdf

Col Field Brief description
1 QNAME Query template NAME
2 FLAG bitwise FLAG
3 RNAME Reference sequence NAME
4 POS 1-based leftmost mapping POSition
5 MAPQ MAPping Quality
6 CIGAR CIGAR string
7 RNEXT Reference name of the mate/next read
8 PNEXT Position of the mate/next read
9 TLEN observed Template LENgth
10 SEQ segment SEQuence
11 QUAL ASCII of Phred-scaled base QUALity+33(or 64)

Linux下安裝使用samtools查看BAM文件

samtools view -h demo.bam | less -S
@HD     VN:1.5  SO:coordinate
@SQ     SN:Chromosome1  LN:3942983
V300035025L4C001R0081179505     99      Chromosome1     1       30      150M    =       101     250     ATGGAGAATATATTGGATCTTTGGAATCAAGCCTTAGCTCAAATTGAGAAAAAGCTAAGCAAACCGAGCTTCGAAACTTGGATGAAGTCGACGAAAGCCCATTCGCTGCAAGGAGATACCTTAACCATCACCGCTCCCAATGAATTTGCC        eeedaZeeefeeeeecdeeeeeecZcefeZ_eefefedecdeefeededeee_eeeUceeeeeeeeeedeabYedeeeeeedfeeeedfde^e_e`de_eeeefeedeeeeeeeeee`fefceecee]eeeffeceefebeeY]fcfaedNM:i:0  MD:Z:150
V300035025L4C006R0370133480     99      Chromosome1     1       30      150M    =       238     387     ATGGAGAATATATTGGATCTTTGGAATCAAGCCTTAGCTCAAATTGAGAAAAAGCTAAGCAAACCGAGCTTCGAAACTTGGATGAAGTCGACGAAAGCCCATTCGCTGCAAGGAGATACCTTAACCATCACCGCTCCCAATGAATTTGCC        eeXdeedeeeeeeeebceeeee_Ucee_deZeeeeeeddeeeXedabedeecdaeeeaWeeeedeeaeeeeeecbeee]eed^YeeeceQae`ae]eebeeeeeY`e^edbeNcceeeeeceeee]e\eedebaWc_fe_dbeeeed]beNM:i:0  MD:Z:150
 

若是SAM文件可先用samtools view進行轉換

$samtools view

Usage: samtools view [options] <in.bam>|<in.sam>|<in.cram> [region ...]

Options:
  -b       output BAM
  -o FILE  output file name [stdout]
 

有時候需要用到BAM的索引文件,需要先用samtools sort命令排序,再調用samtools index為BAM文件建立索引。


參考文獻
[1] Dai L, Zheng T, Xu K, et al. A Universal Design of Betacoronavirus Vaccines against COVID-19, MERS, and SARS. Cell. 2020;182(3):722-733.e11. doi:10.1016/j.cell.2020.06.035
[2] Korber B, Fischer WM, Gnanakaran S, et al. Tracking Changes in SARS-CoV-2 Spike: Evidence that D614G Increases Infectivity of the COVID-19 Virus. Cell. 2020;182(4):812-827.e19. doi:10.1016/j.cell.2020.06.043


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM