Mothur 命令手冊-Mothur命令中文解釋(二)


Mothur命令中文解釋——Mothur中文簡易教程

這些是mothur H-Z的目前所有命令的說明的翻譯,第二部分。(使用Ctrl+F搜索你所查命令)
參看http://www.mothur.org/wiki/Category:Commands 頁面上查閱的所有命令
我查了一下網上的中文教程,似乎沒有。
現在國內使用Mothur的人還很少,不過國外有不少做生態的都用到mothur了。畢竟有很多都是命令行操作。
前天我還搜到了一個印度人在網上發的詢問帖子,想問哪里有關於mothur的簡單教程呢,他說mothur官方網站的教程有點難,看不太懂。
今天這些命令里有三個可能會比較常用,一個是help,就類似於Linux中的man命令,也就是你在windows中常見的幫助文件。
還有兩個,sffinfo和pipeline.pds,在處理sff文件時會用上。
其中sffinfo就能將sff文件轉化為fasta格式的文件,fasta是mothur處理的文件中最常見的格式。
由於最近我要處理一個sff文件,所以特別關注了與sff有關的命令,呵呵。

Hcluster
這個命令可以用來給OTUs分配序列,並輸出一個.list, .rabund, .sabund和.sorted.dist文件。它不會像cluster命令那樣把距離矩陣(distance matrix)保存在RAM(隨機存儲器)中,允許大距離文件被處理。Hcluster對小文件的處理比cluster要慢,但在大文件上更有競爭力。目前,hcluster實行4種成簇方式:
1.最近相鄰:一個OTU內的每個序列與OTU中最相似的序列有最多X%的距離。
2.最遠相鄰:一個OTU內的所有序列與OTU內的其它序列有最多X%的距離。
3.平均相鄰:這個方法介於其他兩種方法之間的水平
4.重量相鄰:
Heatmap.bin
這個命令從一個*.list或*.shared文件提供的數據生成一個heat map。heatmap中的每一行呈現一個不同的OTU,每個組中的OTU的顏色根據那個組內那個OTU的豐富度在黑與紅之間形成成比例。這個命令會生成一個SVG文件(圖片格式),它可以在GIMP或Adobe Illustrator中被進一步修改。有一些選項用於為每個采取不同方法的OTU相對豐度按比例繪制或排列。
Heatmap.sim
這個命令將會產生一個表明多個樣本之間成對相似性的heatmap,采用了多個對比群落成員和結構的calculators(http://www.mothur.org/wiki/Calculators
Help
help命令將會輸出mothur中有效命令的表單。或者,如果你想要針對一個特定命令的幫助信息,用help作為選項,比如 mothur > read.list(help),就會輸出read.list的幫助信息。
Homova
分子方差的同質性(Homogeneity of molecular variance)是一個為方差同質的Bartlett's test的非參數模擬,這已經被用於種群遺傳學,檢測以下假設:兩個或多個種群的基因多樣性是同類的或同質的(Stewart and Excoffier,1996);這個測試還沒有用於微生物生態學文獻。
Indicator
這個命令可以三種方式運行:
1.用一個shared或relabund文件和一個design文件
2.用一個shared或relabund文件和一個tree文件
3.用一個shared或relabund,tree文件和design文件
Indicator命令輸出一個.indicator.summary文件和一個.indicator.tre文件,如果給了一個tree。新的tree在每個內部的節點包含了標簽。標簽是節點號碼,所以你可以把tree關聯到summary文件。Summary文件為每個OTU的每個節點列出了indicator的值。
Libshuff
這個命令像以前在s-libshuff和libshuff程序中那樣實施libshuff方法。libshuff法是一個描述兩個或更多群落是否擁有相同結構的通用測試,采用Cramer-von Mises檢測統計。這個檢測統計值的顯著性表明了群落(偶然)擁有同樣結構的可能性。因為每個成對的對比需要兩個顯著測試,所以為多個對比進行一個矯正(比如Bonferroni's correction)。
List.seqs
這個命令將會寫出在一個fasta,name,group,list或align.report文件中發現的序列名字。這對於使用get.seqs,remove.seqs命令和生成group文件時有用。
Make.biom
make.biom命令讓你把你的shared文件轉換為一個biom文件。關於biom格式:http://biom-format.org/documentation/biom_format.html
Make.fastq
這個命令讀取一個fasta和一個quality文件並創建一個fastq文件。
Make.group
這個命令讀取一個fasta文件或一系列fasta文件,並創建一個group文件。
Make.shared
這個命令讀取一個list和group或biom文件,並為每個group創建一個.shared和一個rabund文件。
Mantel
Mantel命令計算兩個矩陣的mantel相關系數。Sokal, R. R., & Rohlf, F. J. (1995). Biometry, 3rd edn. New York: Freeman.
Merge.files
這個命令將把多個文件連結(使連續)起來並把結果輸出到一個新文件。這對於合並多個fasta格式的序列文件,454 quality文件,group文件,name文件或其它等等是有用的。
Merge.groups
這個命令讀取一個shared文件和一個design文件並把shared文件中同樣也在design文件中分組的groups合並。
Metastats
這個命令基於White.J.R.,Nagarajan.N.和Pop.M.開發的Metastats程序。統計方法用來檢測客觀宏基因組樣本的差異豐度特征。
Mgcluster
該命令解釋暫無,需要blast參數,官方網站有使用方法。
http://www.mothur.org/wiki/Mgcluster
Nmds
這個命令是Sarah Goslee在R(http://www.r-project.org/)中所寫nmds代碼的模型化。采用非矩陣多維尺度分析功能,使用的Borg & Groenen的優化算法。
Normalize.shared
這個命令創建一個.norm.shared文件。
Otu.association
這個命令計算一個shared/relabund文件中的OTUs的相關系數。
Otu.hierarchy
這個命令把不同距離上的OTUs關聯起來。
Pairwise.seqs
這個命令將計算序列之間不正確的成對距離。這會生成一個列格式的距離矩陣,與read.dist中的列選項兼容。這個命令也能產生一個phylip格式的距離矩陣,關於如何操作gap對比和末端gaps有多個選項。
Parse.list
這個命令讀取一個list文件和group文件,並為group文件中的每個group生成一個list。
Parsimony
這個命令采用parsimony方法(aka P-test),以前在TreeClimber中使用過,現在在MacClade和UniFac網站中也有。這個Parsimony方法是一個通用的檢測,用來描述兩個或更多群落是否擁有同樣的結構。檢測統計值的顯著性只表明群落隨機具有相同結構的可能性。這個值不表明相似度水平。
 Pca
運行這個命令需要一個shared或relabund文件。
Pcoa
需要一個plylip格式的距離矩陣文件。
Pcr.seqs
這個命令將根據用戶自定義的選項修剪輸入的序列。
Phylo.diversity
這個命令需要輸入一個tree文件。兩個文件將被輸出:phylo.diversity和(如果你設置rarefy=T).rarefaction。
Phylotype
這個命令可根據他們的分類用於給OTUs分配序列,輸出一個.list,.rabund和.sabund文件。
Pipeline.pds
這個命令被設計用於指導你使用mothur(完成)通過你的分析。為了展示這個命令的各種特性,我們將使用Pat's Pipeline Files(點擊下載http://www.mothur.org/w/images/0/0f/Pipeline.tutorial.zip)
Pre.cluster
這個命令執行一個移除序列這個目標的假單鏈接算法,之所以移除這些序列,由於焦磷酸測序過程的錯誤。這個算法的一個版本是由Sue Huse開發,將在接下來的環境微生物學一篇論文中發表。基本的理念是豐富的序列比稀少序列更可能產生一些錯誤序列。考慮到這些,這個算法根據它們的豐富度給序列排名。然后大略讀過序列表單在原始序列的一些閾值內以尋找更稀少的序列。在閾值內的那些序列與更大的序列合並。最初的Huse方法在一個距離矩陣上完成這個任務,然而現在我們基於原始序列做這個。我們的方法的優點是這個算法在排列的序列上完成而不是距離矩陣。因為通過pre-clustering你移除了大量的序列使距離計算更為快速。
Quit
quit 命令沒有選項,可帶或不帶括號調用。
Rarefaction.shared
這個命令將產生使用,無需更換方法重新取樣的樣品間稀疏曲線。生態學家用稀薄(rarefaction)的傳統方式是沒有內隨機樣本的抽樣秩序,而樣本之間。舉例來說,如果我們想知道OTU在人類結腸癌的數量,我們可以從結腸內,不同地點取樣和測定一堆16S rRNA基因序列。通過確定個OTU在每個樣品的數量,並比較這些樣品的組成,就有可能確定你們在單個范圍內的生物多樣性的采樣的好壞。 mothur有能力觀察到的物種數量的樣品間稀疏曲線生成數據。對於本教程,你應該下載並解壓縮Patient70Data.zip(http://www.mothur.org/w/images/b/b2/Patient70Data.zip
Rarefaction.single
這個命令將會產生樣本內的rarefaction曲線,采取無需更換方法的重新采樣。Rarefaction曲線提供一個對比不同樣品中的觀察到的豐度的方法。大體來說,如果你沒有采的許多個體作樣本你將期望已經觀察了你平均獲得的OTUs的數目。盡管有一個公式可產生rarefaction曲線(參看http://www.mothur.org/wiki/Rarefaction),但mothur使用隨機步驟。它也能幫你評估你的樣本密度(強度)。如果一個rarefaction曲線變得與X軸平行,你可以合理相信你的采樣工作做的很好,而且相信觀察到的豐富度水平。否則,你需要繼續采樣。Rarefaction實際上對多樣性的測量比它對豐度的測定更好。
Read.dist
注意:從mothur1.18.0開始,read.list命令不復存在。你可以直接輸入你的距離矩陣文件的名稱到命令行中來使用它們。
Read.tree

注意:從mothur1.18.0開始,這個命令不復存在,你可以直接輸入文件名字到命令行來使用它們。
Remove.groups

這個命令從一個特定的group或一套groups中移除序列。你可以輸入一下這些文件類型:fasta, name, group, list, taxonomy和shared。
Remove.lineage

這個命令讀取一個taxonomy文件和一個taxon,並生成一個新的文件,只包含不在taxon中的序列。你也可以把一個fasta,name,group,list,或align.report文件包括到這個命令中,mothur將會為每個生成新的“只包含不在taxon中的序列”的文件。
Remove.otus

這個命令刪除這樣的OTUs,它們含有“來自特定group或一套groups的序列”。
Remove.rare

這個命令讀取以下文件類型之一:list,rabund,sabund或者shared文件,它輸出一個刪除了稀有OTUs的新文件。
Remove.seqs

這個命令把一個list中的序列名稱和一個fasta, name, group, list或align,report文件生成一個新的文件,不包含list中的序列。這個命令與list.seqs連結對於顯示序列集群(collection)有幫助。
Reverse.seqs

提供一個fasta格式的文件,reverse.seqs將生成一個包含有它們互補序列的文件。
Screen.seqs

這個命令使你保留滿足特定用戶所定標准的序列。而且,它能使你剔除那些不符合來自names,group或align.report文件的標准的序列。
Sens.spec

說明暫無。
Seq.error

這個命令讀取一個查詢的alignment文件和一個參考的alignment文件,並創建...(后面未說明)
Set.current

這個命令使你為mothur的使用設置current文件,你也可以清空current文件。
Set.dir

這個命令使你重新指向mothur創建的output文件,或者設置mothur將要查找input文件的所在目錄。如果它不能在input位置找到你的文件你也可以設置一個缺省的(或默認的)位置供mothur查找。這使你把你的參考文件保留在一個位置。
Set.logfile

你或許想給你的logfile(日志文件)起一個特定的名字或者附加一系列的logfiles。set.logfile可以使你做這件事。
Sffinfo

這個命令從一個.sff文件釋放讀取序列。
Shhh.flows

這個命令是Chris Quince的PyroNoise算法的Pat Schloss翻譯,使用的mothur的bells和whistles的合並從C到C++。基於Qunice提供的測試數據資料組的處理,shhh.flows把同樣或相似的輸出結果給AmpliconNoise. 這個命令采用期望最大算法以糾正流程圖,確認每個流程圖的理想化形式。並且把流程圖轉譯到DNA序列。我們的測試表明當使用trim.flows命令把Titanium數據消減到450flows時,shhh.flows為任何其他已有的方法提供質量最高的數據。對比之下,當我們使用Quince建議的最小/最大數目(360/720)flows時,錯誤率沒有那么大。這較大提高的錯誤率不是來自計算花費。然而,在trim.seqs的特征采取分鍾的順序,shhh.flows可以采取小時的次序。沒有多個處理器或MPI時不建議對較大數據資料組運行shhh.flows命令。你可以為你的操作系統獲得合適版本的MPI(http://www.open-mpi.org/).你也需要一個lookup文件告訴shhh.flows對一個給定同源多聚長度觀察到一個強度值的可能性。你可以在這兒(http://www.mothur.org/wiki/Lookup_files)獲得mothur兼容的文件,你將需要把這些文件與你的數據或mothur可執行程序放在一起。
Shhh.seqs

這個命令是基於mothur的,對Chris Quince's序列表示程序——SeqNoise的重新編寫。
Sort.seqs

這個命令把來自fasta,name,group,quality,flow或taxonomy文件的序列放在同樣的次序(order)下。
Split.abund

這個命令讀取一個fasta文件,和一個list或一個names文件,把序列分割為稀有和豐富groups.
Split.groups

這個命令讀取一個fasta和group文件,並為group文件中的每個group生成一個fasta文件。
Sub.sample

這個命令用來作為一個使你的數據標准化的路徑,或者從你的原始set創建一個小的set。它把以下這些文件類型作為輸入:fasta, list, shared, rabund和sabund,並產生一個包含你原始文件樣本的新文件。
Summary.qual

這個命令讀取一個quality文件和一個作為選項的name,並概括總結quality信息。
Summary.seqs

這個命令將會總結(概述)一個未排序或排序過的fasta格式文件的序列質量。
Summary.shared

這個命令將會產生一個summary文件,對OTU數據的每一行都有calculator值,為group文件中不同groups間有所有可能的對比。這個命令在你對你的多樣本數據分析產生collector's或者rarefaction曲線不感興趣時有用。但是,如果你對於確定這些值對於樣本有多敏感感興趣,這值得你花點時間查看那些為calculators生成的collector‘s曲線。如果這些值對樣本不敏感,那么你可以相信這些值。否則,你需要繼續采樣(抽樣)。
Summary.single
這個命令將產生一個summary文件,其它解釋同summary.shared命令,不過使用方法有所不同。
Summary.tax
這個命令讀取一個taxonomy文件和一個作為選項的名字或者group文件,總結taxonomy的信息。
System
這個命令使用戶在不離開mothur環境的情況下,運行mothur以外的程序。這個命令對於改變目錄和重命名文件有用。這個命令的語法不同於其它命令——實際需要運行的命令應該放在括號內。如果你對於shell程序不熟悉,你也許可以使你在不同的Mac/Linux和Windows的已有的shell程序中熟悉一下。
Tree.shared
這個命令將會產生一個newick格式的tree文件,描述多個groups之間的差異性(1-similarity)。采用UPGMA算法的groups使用群落間的距離被分簇,就像使用描述群落成員或結構相似性的任何calculators 那樣被計算。差異性作為相似性的一個負值被計算。
Trim.flows
這個命令是與trim.seqs命令的功能是相似的,除了他使用由454測序產生的sff文件中匯集的flowgram數據。trim.flows的主要用法是作為運行shhh.seqs的一個預備步驟。Chris Qunice有一系列的perl腳本可以完成類似的任務。這個命令使你根據基於條形碼的樣本把你的flowgram數據分塊,削減flows到一個特定的長度范圍,剔除太短或有太多錯配而不能編入條形碼和引物的序列。
Trim.seqs
這個命令提供對需要顯示和排序的pyrosequences(一種測序方法)的預處理功能。RDP(http://rdp.cme.msu.edu/)可以提供類似的分析,這里我們給你增加了靈活性和速度。這個命令將是你能修剪掉引物和條形碼序列,使用條形碼信息生成一個group文件並把一個fasta文件分割為次級文件,顯示基於來自454測序方法的qual文件序列,剔除基於序列長度和當前不明鹼基的序列,獲得你的序列的反向互補。當這個分析清楚的朝着pyrosequencing 匯集(collection)開始工作,它也可以和傳統的Sanger 測序方法一起使用。
Unifrac.unweighted
這個命令執行unweighted UniFrac算法。unifac.weighted命令實行這個命令weighted版本。這兩個方法在UniFrac網站(http://bmf2.colorado.edu/unifrac/)都有。UniFac方法是通用的測試,描繪兩個或多個群落是不是具有同樣的結構。這個測試統計值的顯著性只能表明群落隨機具有同樣結構的可能性。這個值不表明相似度水平。
Unifrac.weighted
解釋見Unifrac.unweighted
Unique.seqs
這個命令只返回這樣的特定序列,它們來自一個fasta格式的序列文件和一個表明這些序列與參考序列相同的文件。經常有一些序列的集合有相當數目的相同序列。它占用大量的處理時間來排序,計算距離以及給每個單獨的序列分簇。
Venn
這個命令從一個提供的*.shared文件的數據生成一個Venn示意圖。這個命令能產生示意圖(以SVG格式)以對比2個,3個或4個group共有的豐富度。這個SVG文件可以進一步在像Gimp或Adobe Illustrator的程序中修改,根據面積的部分按比例顯示由區域表示的豐富度。基於觀察到的豐富度或估計的豐富度(采用chao和sharedchao calculators)這里有一些選項來測定豐度。

 

轉自:http://www.douban.com/note/217955444/ 感謝xixihaha9288童鞋


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM