Mothur命令教程
從這個頁面http://www.mothur.org/wiki/Category:Commands
上查閱的所有命令,根據個人理解翻譯了一下。個人能力有限,會有不當之處。
A-G (查看時請用Ctrl+F快捷鍵)
Align.check
這個命令使你計算16S rRNA基因序列中潛在的錯配鹼基對數目。如果你對ARB(http://www.arb-home.de/)的編輯窗口熟悉的話,這與計算~,#,-和=這些符號的數目相同。用greengenes的二級結構圖譜和esophagus dataset運行這個命令。要運行這個命令,你必須提供FASTA格式的序列文件。
Align.seqs
這個命令把用戶提供的FASTA格式的候選序列文件對齊到用戶提供的同樣格式的模板序列。通用的方法是:
1.采用kmer searching(http://sourceforge.net/apps/mediawiki/kmer/index.php?title=Main_Page),blastn或suffix tree searching找到每個候選序列的最接近模板
2.在候選序列文件和空位模板序列之間進行鹼基配對,采用Needleman-Wunsch,Gotoh,或者blastn算法規則。
3.重新在候選和模板序列對之間插入間隔(空位),采用NAST算法,這樣候選序列就能與原始模板序列兼容。
我們提供了一些16S和18S基因序列的數據庫,這些是與greengenes和SILVA隊列兼容的。然而,自定義的任何DNA序列的排列都可以用作模板,所以鼓勵用戶分享他們的排列供其他人使用。普遍來說,進行排列是很快的-我們能在3小時內將超過186000個的全長序列排序到SILVA排列中,而且質量像SINA aligner做的一樣好。另外,這個速率可以由多個處理器加倍。
Amova
分子方差分析(Analysis of molecular variance)是一種傳統方差分析的非參數模擬。這種方法被廣泛應用在種群遺傳學以檢測關於兩個種群的遺傳多樣性不是顯著不同於由這兩個種群的共同聯合導致的多樣性這樣一個假設。
Anosim
參考文獻:Clarke, K. R. (1993). Non-parametric multivariate analysis of changes in community structure. _Australian Journal of Ecology_ 18, 117-143. 群落結構變化的非參數多元分析《澳大利亞生態學報》
Bin.seqs
這個命令輸出一個fasta格式的文件,其中序列根據它們所屬的OTU進行排序。這樣的輸出也許對一個OTU生成特異性引物有幫助,用來對序列進行分類。
Catchall
這個命令使mothur與Linda Woodard,Sean Connolly和John Bunge開發的catchall程序連接。獲取更多信息,請參看http://www.northeastern.edu/catchall/index.html。catchall的可執行程序必須與你的mothur在同一個文件夾里。如果你是一個Mac或Linux用戶,你必須也安裝了mono,在catchall的網頁中有一個關於mono的鏈接。
Chimera.bellerophon
采用Bellerophon方法生成一個挑選的優先嵌合序列的得分列表。
Chimera.ccode
采用Ccode方法。對每個詞語,在查詢序列和參考序列之間對比距離的差異,以及參考序列與它們自己。
Chimera.check
采用chimeraCheck方法...注意:從RDP模型中,這個方法不能決定一個序列是否是嵌合的,但是讓你決定那些基於產生的IS值的序列。
查看“查詢的序列的左邊到它的最近的匹配的距離+查詢的右邊到它最近的匹配的距離-整個查詢序列到它最近的匹配的距離”,通過多個窗口
Chimera.perseus
這個命令讀取並命名一個fasta文件,輸出潛在的嵌合序列。
Chimera.pintail
采用Pintall 方法。在不同的窗口中查詢一個序列,查看期望的差異與觀察到的差異之間的不同
Chimera.seqs
這個命令已經被拆分為6個分離的命令。
目前,mothur執行六種方法以確定一個序列是不是嵌合的。如果有一個你喜歡看到的算法可以實施,請考慮一下或者貢獻給mothur項目,或者聯系開發者,我們將會考慮我們能做什么。
chimera.bellerophon
chimera.pintail
chimera.check
chimera.ccode
chimera.slayer
chimera.uchime
Chimera.slayer
這個命令讀取一個fasta文件和參照文件,並輸出潛在的嵌合序列。原始算法的開發者建議采用一個特殊的模版參照(例如,gold)。我們用silva參照文件提供silva-based 排列的數據庫。你將需要在blast/bin文件夾中有megablast和formatdb可執行文件的拷貝,這里blast文件夾與mothur可執行程序相鄰。megablast/formatdb的版本可以在這里
ftp://ftp.ncbi.nlm.nih.gov/blast/executables/release/2.2.25/找到,或者它們就包含在mothur的程序版本中。
Chimera.uchime
這個命令讀取一個fasta文件和參考文件,並輸出潛在的嵌合序列。原始的uchime程序是由Robert C. Edgar編寫的,並且貢獻為公共所有。
http://drive5.com/uchime/
Chop.seqs
這個命令讀取一個fasta文件,輸出一個.chop.fasta,包含着修剪的整理的序列。它可以用於排序的和未排序的序列。
Classify.otu
這個命令用來為一個OTU得到一個共有序列分類.
Classify.seqs
這個命令允許用戶使用多個不同的方法把他們的序列分配到他們選擇的分類提綱(輪廓)中。當前的方法包括采用一個k-nearest鄰近共有序列和Bayesian方法。分類提綱和參考序列可以在taxonomy outline(http://www.mothur.org/wiki/Taxonomy_outline)的頁面中獲得。這個命令需要你提供一個fasta格式的輸入文件和數據庫序列文件,還要有一個為了參考序列的分類文件。
Classify.tree
這個命令用來為一個進化樹的每個節點獲得一個共有序列。
Clear.memory
這個命令從內存中刪除保存的參考數據,你可以在已經用以下命令(align.seqs, chimera.ccode, chimera.check, chimera.pintail, chimera.slayer和classify.seqs)之一使用過保存參數之后使用chear.memory.
Clearcut
這個讓mothur用戶在mothur內部運行clearcut程序。chearcut程序是由Idaho大學的Initiative for Bioinformatics和Evolutionary Studies(IBEST)編寫。了解更多clearcut相關信息,參看http://bioinformatics.hungry.com/clearcut/。注意,在版本1.13.0中,clearcut源碼已經加進mothur,所以你不再需要clearcut的可執行程序。當然,如果你願意,你仍可以從這里下載clearcut的可執行文件http://www.mothur.org/wiki/Download_Clearcut
Cluster
一旦一個距離矩陣讀進mothur,cluster命令就能用來給OTUs分派序列。目前,mothur采用三個分簇方式。
最近鄰:從OTU的最相似序列,一個OTU內的每一個序列都最多x%的距離
最遠鄰:一個OTU內的所有序列與OTU內的所有其它序列最多有X%的距離
平均鄰近:這個方法介於另外兩個算法的中間水平
如果您有一個算法,請考慮一下貢獻給mothur項目。
Cluster.classic
這個命令可用於把序列分配到OTUs.它是cluster的dotur工具,目前mothur采用三個分簇方式。
Cluster.fragments
這個命令需要一個fasta格式的文件,也要提供
一個命名的文件而且當一個序列被確定為一個更大的序列的一部分時,列出的與序列名相關的指明文件就會被合並。
Cluster.split
這個命令用來分配序列到OTUs並輸出一個.list, .rabund, .sabund文件.它把大的距離矩陣拆分為小的部分。
Collect.shared
這個命令給計算器生成一個收集曲線,描繪出不同群落間的相似性或它們的共有豐度。Collector's curves描繪隨着你樣本增加的個體,豐富度和多樣性的變化。如果Collector's curves變得與x軸平行,你可以合理的確信你在采樣這個工作上做的很好,並且相信曲線上的最終值。否則,你需要繼續抽樣(采樣),mothur能為collector's curves生成數據,就像sons做的那樣。當時sons將數據呈現在sons文件中,實際上不可能被新手分析解讀。mothur解決了許多這樣的問題,因為mothur為每一個估計值產生分離的文件。
Collect.single
Collect.single利用計算器(http://www.mothur.org/wiki/Calculators)生成collector's curves,描述了豐度,多樣性和樣本的其他特征。Collector's curves描繪了你抽取額外的個體時豐度和多樣性的變化。
Consensus.seqs
這個命令可以以兩種方式使用:從fasta文件創建一個共有序列,或者由一個list文件為每個OTU創建一個共有序列。序列必須進行排列。
Consensus.seqs的參數(特征,因素)是fasta, list, name和label
Cooccurrence
這個命令計算四個度量並且測試他們的顯著性以評估是否樣式的存在與否比起那些隨機期待的有所不同。
Corr.axes
這個命令將會計算在shared/relabund文件中每一行(或列)的相關系數,記錄在一個pcoa文件所顯示的軸線上。
Count.groups
這個命令從一個特定的組(group)或者一套組算出序列,從下面這些文件類型:group或者shared文件.
Count.seqs
這個命令計算在一個name文件中的代表性序列所代表的序列的數目。如果提供了一個group文件,它也會提供使group計數崩潰。
Create.database
這個命令讀取一個list文件,*.cons.taxonomy, *.rep.fasta, *.rep.names和可選的group文件,並且創建一個數據庫(database)文件.
Degap.seqs
這個命令讀取一個fasta文件並輸出一個.ng.fasta文件,它包含所有間隔字符都被移除后的序列。
Deunique.seqs
這個命令是unique.seqs的反向命令,從一個fasta和name文件創建一個fasta文件。
Deunique.tree
這個命令把冗余序列標識符重新插入一個唯一的系統樹。
Dist.seqs
這個命令將計算兩個排序的DNA序列間不正確的成對距離。這個方法比通用的DNADIST更好,因為這些距離不是存儲在RAM(隨機存儲器)中,它們直接打印到一個文件。而且,通過它可以忽略可能不感興趣的“大的”距離。這個命令將產生一個列格式的距離矩陣,這個矩陣與read.dist命令中的“列選項”相互兼容。這個命令也能生成一個phylip格式的距離矩陣。它有多個如何操縱gap比較和末端gap的選項。
Dist.shared
這個命令將會生成一個phylip格式的距離矩陣,描述多個組的差異性。這個命令將會計算任何一個描述群落成員或結構相似性的計算子(calculator)。
Fastq.info
這個命令讀取一個fastq文件,並創建一個fasta和quality文件。
Filter.seqs
filter.seqs從基於一個由用戶定義標准的排列刪除列。例如,生成的與參照排列相對的排列經常有一些列的每一個字符是“.”或者“-”。這些列不會包含用於計算距離,因為他們本身沒有信息。通過刪除這些列,計算大量的距離這一過程就會加快。同樣,人們也喜歡用溫和的或強制的屏蔽方式(比如Lane' mask)屏蔽他們的序列來移除可變區域。這類屏蔽只在深層次系統進化分析時鼓勵使用,而在精細水平的分析比如需要計算OTUs中不建議。
Get.coremicrobiome
這個命令決定可變數目的樣本中的OTUs的片段,為了不同的最小相關豐富度。
Get.current
這個命令允許你找出mothur已經為每個類型保存為current的一些文件,你也可以清空current文件。
Get.group
這個命令允許你為儲存在內存中的多個樣本的OTU數據獲得一個已有的不同群組的目錄。這個特征應該在為其它命令使用group選項時有幫助。
Get.groups
這個命令從一個特定group或一套groups選擇序列。group來自以下文件類型:fasta,name,group,list,taxonomy.
Get.label
這個命令是你為當前儲存在內存中的每行OTU數據獲得一個標簽的目錄。這個特征應該在為其他命令使用label選項時有幫助。
Get.lineage
這個命令讀取一個taxonomy文件和一個分類(taxon),並產生一個新的文件只包含有來自分類的序列。你也許也會把一個fasta, name, group, list或者align.report 文件包括到這個命令中,mothur將會為那些只包含有選定序列的文件生成新的文件。
Get.otulist
這個命令解析一個list文件並且為每一個包含兩列的距離創建一個.otu文件。第一列是OTU數目,第二列是那個OTU中的序列的列表(list)。
Get.oturep
bin.seqs命令能為所有序列報告OTU號碼(即編號),get.oturep命令生成一個fasta格式的序列文件,為每個OTU只包含一個代表性序列。為每個OTU的定義生成一個.rep.fasta和.rep.names文件。
Get.otus
這個命令選擇出包含有來自一個特定group或一副groups的序列的OTUs.
Get.rabund
這個命令將生成一個rabund文件,它基於你輸入到mothur的OTU數據。
Get.relabund
這個命令計算一個樣本中的每個OTU的相對豐富度。它將輸出一個.relabund文件。
Get.sabund
這個命令將產生一個sabund文件,基於你讀入mothur的OTU數據。例如,如果你讀入一個list文件,get.sabund將產生對應的sabund文件。
Get.seqs
這個命令把一個序列名字的列表(list)和一個fasta,name,group,list或align.report文件生成一個新的文件,只包含在list中出現的文件。這個命令也許用於和list.seqs命令結合以幫助顯示一個序列結合。
Get.sharedseqs
這個命令取一個list和group文件並為每個距離輸出一個*.shared.seqs文件。這對於那些情況有用,即你或許對於確定特殊groups中特定的或共有的序列感興趣。這樣接下來你就可以分類。
轉自:http://www.douban.com/note/217825393/ 感謝xixihaha9288童鞋