QIIME2是微生物組分析流程QIIME(截止17.7.13被引7771次)的全新版(不是升級版),采用python3全新編寫,並於2018年1月全面接檔QIIME,是代表末來的分析方法標准(大牛們制定方法標准,我們跟着用就好了)。
安裝
安裝方法比較簡單,參照官網:https://docs.qiime2.org/2017.8/install/native/#install-miniconda
附1. 核心概念
原文鏈接:https://docs.qiime2.org/2017.8/concepts/
想要深入理解QIIME2的分析過程,QIIME定義的基本概念需要了解一下。
1. 數據文件: 人工產品 (artifacts)
QIIME2為了使分析流程標准化,分析過程可重復,制定了統一的分析過程文件格式.qza;qza文件類似於一個封閉的系統,里面包括原始數據、分析的過程和結果;這樣保證了文件格式的標准,同時可以追溯每一步的分析,以及圖表繪制參數。這一方案為實現將來可重復的分析提供了基礎。比如文章投稿,同時提供分析過程的文件,別人可以直接學習或重復實驗結果。
2. 數據文件:可視化(visualizations)
QIIME2生成的圖表結果文件類型,以.qzv為擴展名,末尾的v代表visual;它同qza文件類似,包括分析方法和結果,方便追溯圖表是如何產生的;唯一與qza不同的,它是分析的終點,即結果的呈現,不會在流程中繼續分析。可視化的結果包括統計結果表格、交互式圖像、靜態圖片及其它組合的可視化呈現。這類文件可以使用QIIME2 qiime tools view命令查看,不安裝程序也可在線 https://view.qiime2.org 導入顯示;
3. 語義類型(Semantic types)
QIIME2每步分析中產生的qza文件,都有相應的語義類型,以便程序識別和分析,也避免用戶引入不合理的分析過程(如使用末標准化的OTU表進行多樣性分析)。了解分析各步的結果,才能對分析有更深入和全面的認識。
4. 插件(Plugins)
QIIME2中的某個特定功能即為插件,比如拆分樣品、Alpha多樣性分析等。插件每個人都可以開發,系列已經由社區開發了標准化分析的插件,其他用戶按其標准開發的特定分析,並可與團隊聯系發布,或整合入平台。
5. 方法和可視化
方法是對QIIME2定義的輸入格式進行操作的過程,並產生標准格式的輸出,以方便后續分析,輸入和輸出均為qza文件;可視化是對定義的標准輸入,產生統計表格或可視化圖形,方便用戶解讀,輸入為qza格式,輸出為qzv,文件不僅包括結果,還包括處理的分析命令和參數,方便重復和檢查分析過程是否准確。
附2. Glossary 名詞解釋
Action 方法或可視化的動作
A general term for a method or visualizer.
Artifact 本流程定義的文件格式,存儲數據和分析結果
Data that can be used as input to a QIIME method or visualizer, or that can be generated as output from a QIIME method. Artifacts typically have the extension .qza when written to file.
Method 對Artifact分析的方法
An action that takes some combination of artifacts and parameters as input, and produces one or more artifacts as output. These output artifacts could subsequently be used as input to other QIIME 2 methods or visualizers. Methods can produce intermediate or terminal outputs in a QIIME analysis.
Parameter 參數,軟件或方法中可調整的部分
A primitive (i.e., non-artifact) input to an action. For example, strings, integers, and booleans are primitives. Primitives are never output from an action.
Pipeline 流程,一系統分析方法的串聯
A combination of actions. This is not yet implemented.
Plugin 插件,可擴展的功能
A plugin provides microbiome (i.e. domain-specific) analysis functionality that is accessible to users through a variety of interfaces built around the QIIME 2 framework. Plugins can be developed and distributed by anyone. In more technical terms, a plugin is a Python 3 package that instantiates a qiime2.plugin.Plugin object, and registers actions, data formats, and/or semantic types that become discoverable in the QIIME 2 framework.
Result 分析結果
A general term for an artifact or visualization. A result is produced by a method, visualizer, or pipeline.
Visualization 可視化,把數據繪制成圖表方便查看和分析規律
Data that can be generated as output from a QIIME visualizer. Visualizations typically have the extension .qzv when written to file.
Visualizer 可視化工具,將結果可視化的軟件
An action that takes some combination of artifacts and parameters as input, and produces exactly one visualization as output. Output visualizations, by definition, cannot be used as input to other QIIME 2 methods or visualizers. Visualizers can only produce terminal output in a QIIME analysis.
附3. 常用的語義類型semantic types
原文鏈接:https://docs.qiime2.org/2017.8/semantic-types/
FeatureTable[Frequency]: 頻率,即Feature表(OTU表),為每個樣品中對應OTU出現頻率的表格
FeatureTable[RelativeFrequency]: 相對頻率,OTU表標准化為百分比的相度豐度
FeatureTable[PresenceAbsence]: OTU有無表,顯示樣本中某個OTU有或無的表格
FeatureTable[Composition]: 組成表,每個樣品中OTU的頻率
Phylogeny[Rooted]: 有根進化樹
Phylogeny[Unrooted]: 無根進化樹
DistanceMatrix: 距離矩陣
PCoAResults: 主成分分析結果
SampleData[AlphaDiversity]: Alpha多樣性結果,來自樣本自身的分析
SampleData[SequencesWithQuality]: 帶質量的序列,要求有質量值,要求序列名稱與樣品存在對應關系,如為按樣品拆分后的數據格式
SampleData[PairedEndSequencesWithQuality]: 成對的帶質量序列,要求序列ID與樣品編號存在對應關系;
FeatureData[Taxonomy]: 每一個OTU/Feature的分類學信息
FeatureData[Sequence]: 代表性序列
FeatureData[AlignedSequence]: 代表性序列進行多序列比對的結果
FeatureData[PairedEndSequence]: 雙端序列進行聚類或去噪后,分類好的OTU或Feature
EMPSingleEndSequences: 采用地球微生物組計划標准實驗方法產生的單端測序數據;
EMPPairedEndSequences: 采用地球微生物組計划標准實驗方法產生的雙端測序數據;
TaxonomicClassifier: 用於物種注釋的分類軟件