微生物群落多樣性測序與功能分析
1.幾個概念:16S rDNA(或16S rRNA);OTU;測序區段。
1.3測序區段:由於16S rDNA較長(1.5kb),我們只能對其中經常變化的區域也就是可變區進行測序。16S rDNA包含有9個可變區,分別是v1-v9。一般我們對v3-v4雙可變區域進行擴增和測序,也有對v1-v3區進行擴增測序。
2.工具/原料:
2.1樣本:16S rDNA測序首先需要提取環境樣品的DNA,這些DNA可以來自土壤、糞便、空氣或水體等任何來源。
2.2提取DNA:提取DNA后需要經過質檢和純化,一般16S rDNA測序擴增對DNA的總量要求並不高,總量大於100ng,濃度大於10ng/ul一般都可以滿足要求。如果是來自和寄主共生的環境如昆蟲的腸道微生物,提取時可能包括了寄主本身的大量DNA,對DNA的總量要求會提高。微生物菌群多樣性測序受DNA提取和擴增影響很大,不同的擴增區段和擴增引物甚至PCR循環數的差異都會對結果有所影響。因而建議同一項目不同樣品的都采用相同的條件和測序方法,這樣相互之間才存在可比性。
2.3測序:完成PCR之后的產物一般可以直接上測序儀測序,在上機測序前我們需要對所有樣本進行定量和均一化,通常要進行熒光定量PCR。完成定量的樣品混合后就可以上機測序。(16S rDNA測序目前可以采用多種不同的測序儀進行測序,包括羅氏的454,Illumina的Novoseq, MiSeq,Hiseq,Life的 PGM 或 Pacbio 以及 nanopore 的三代測序儀。不同的儀器各有優缺點,目前最主流的是Illumina公司的MiSeq,因為其在通量、長度和價格三者之間最為平衡。MiSeq 測序儀可以產生 2x300 bp 的測序讀長, Hiseq 和 Novoseq 可以生成 2x250bp 或者 2x150bp 的測序讀長,且通量較大。)
3.方法:
16S rDNA分析基本流程:數據預處理;OTU分析;樣本差異分析
3.1原始數據處理:
原始測序數據需要去除接頭序列,根據 overlap 軟件並將雙端測序序列進行拼接成單條序列,同時對序列質量進行質控和過濾。提供已知數據庫 GreenGenes 作為參考,去除嵌合體序列得到最終可用的序列。
提取出的數據以 fastq 格式保存,每個樣本有 fq1 和 fq2兩個文件,里面為測序兩端的 reads,序列按順序一一對應。
原始fastq格式是一個文本格式用於存儲生物序列(通常是核酸序列)和其測序對應的質量值。這些序列以及質量信息用ASCII字符標識。
3.2OTU分類和統計:
OTU(operational taxonomic units) 是在系統發生學研究或群體遺傳學研究中,為了便於進行分析,人為給某一個分類單元(品系,種,屬,分組等)設置的同一標志。通常按照 97% 的相似性閾值將序列划分為不同的 OTU,每一個 OTU 通常被視為一個微生物物種。相似性小於97%就可以認為屬於不同的種,相似性小於93%-95%,可以認為屬於不同的屬。樣品中的微生物多樣性和不同微生物的豐度都是基於對OTU的分析。
使用QIIME(version 1.8.0)工具包進行統計注釋。
使用QIIME(version 1.9.0, http://bio.cug.edu.cn/qiime/)的ucluster方法根據97%的序列相似度將所有序列進行同源比對並聚類成operational taxonomic units (OTUs)。然后與數據庫GreenGenes(version gg_13_8, http://greengenes.lbl.gov/cgi-bin/JD_Tutorial/nph-16S.cgi)進行比對,比對方法uclust,identity 0.9 。
然后對每個OTUs進行reads數目統計。
下面的2個表,其中一個表是對每個樣本的測序數量和OTU數目進行統計,並且在表栺中列出了測序覆蓋的完整度(顯示前10個樣本)。
另一個表是對每個樣本在分類字水平上的數量進行統計,並且在表栺中列出了在每個分類字水平上的物種數目(顯示前10個樣本)。
可以看到絕大部分的OTU都分類到了屬(Genus),也有很多分類到了種(Species)。但是仍然有很多無法完全分類到種一級,這是由於環境微生物本身存在非常豐富的多樣性,還有大量的菌仍然沒有被測序和發現。
測序數目統計表主要是對每個樣本的測序數量和OTU數目進行統計,並且在表格中列出了測序覆蓋的完整度(顯示前10個樣本,如果樣本超過10個,請查看結果中otu_stat.txt文件)
其中 SampleName表示樣本名稱;SampleSize表示樣本序列總數;OTUsNumber表示注釋上的OTU數目;OTUsSeq表示注釋上OTU的樣本序列總數。
Coverage是指各樣品文庫的覆蓋率,其數值越高,則樣本中序列沒有被測出的概率越低。該指數實際反映了本次測序結果是否代表樣本的真實情況。
計算公式為:C=1-n1/N 其中n1 = 只含有一條序列的OTU的數目; N = 抽樣中出現的總的序列數目。
分類水平統計表主要是對每個樣本在分類學水平上的數量進行統計,並且在表格中列出了在每個分類學水平上的物種數目(只顯示前10個樣本,如果樣本超過10個,請查看結果中taxon_all.txt文件)
其中SampleName表示樣本名稱;Phylum表示分類到門的OTU數量;Class表示分類到綱的OTU數量;Order表示分類到目的OTU數量;Family表示分類到科的OTU數量;Genus表示分類到屬的OTU數量;Species表示分類到種的OTU數量。