擴增子常見問題
01 實驗室檢測的DNA濃度很高,送到公司檢測之后濃度卻比較低呢?
1、老師在實驗室多采用Nanodrop對DNA濃度進行檢測,而在公司我們會結合Qubit、Nanodrop、瓊脂糖電泳三種方法檢測DNA樣品的質量;
2、由於不同檢測方法的原理不同,所以檢測出的結果也會存在一定的差異。其中,Nanodrop檢測法是基於紫外分光光度原理進行檢測,由於DNA樣品中可能含有部分雜質,因此會造成結果虛高的現象;Qubit檢測法則是基於熒光標記的原理進行檢測,結果會更准確;
3、當兩種檢測方法的結果出現差異時,我們以Qubit檢測結果為准。
個人經驗:我用CTAB法提取的小麥總DNA, Nanodrop檢測濃度大於1000 ng/ul,結果公司返回的檢測報告只有100 ng/ul,差別可達10倍。可能是植物多糖含量高,DNA純度比較難保證。
02 在計算微生物群落樣品之間的距離時,分別基於加權與非加權兩種不同的算法繪制出的結果展示圖有什么不同?如何進行選擇呢?
1、在計算微生物群落樣品之間的距離時,加權是考慮到樣品中OTUs的相對豐度信息,而非加權則沒有考慮物種的相對豐度信息;
2、如果老師研究的生物學問題與物種的相對豐度信息密切相關,使用加權算法的結果展示可能更為符合;如果研究的生物問題與豐度關系不密切,或者各組的區分與低豐度的OTUs更為密切,則使用非加權的結果可能更為合適。
個人經驗:我們組研究的一般基因型等差別對微生物組的影響,權重是非常重要的,非加權(unweighted Unifrac)的結果亂成一團,完全不適合;即使是加權的(weight unifrac)解釋也不好,感覺它們比較適合區分差別較大的不同生態位(niche)。我們用bray-curtis物種距離一般會有更好的解釋。
03 在韋恩圖中,為什么組中OTU個數與單個樣本個數的加和不一致?
對於組的OTU計數,采用的是取並集的方式(當該組的重復樣品中只要有一個樣品存在該OTU,那么就認為該組內存在該OTU,若所有重復樣品中都不存在該OTU,即認為該組內不存在該OTU)。
個人經驗:樣品和組間共有、特有OTU的結果很不可信,因為OTU的數量受測序深度和隨機因素影響很大。其次,在高通量測序的結果中,大數據中出現0或1、2、3在統計上並沒有顯著差異,更多是隨機分布的假陽性。建議關注差異OTU的類別,不要在此處不准確的結果上浪費時間。
04 如何選擇T-test、 Metastat及LEFSe的結果?
由於這三種統計分析方法所使用的統計檢驗的方法有所不同,因此得出的結果也會存在差異。其中,T-test使用的是t檢驗的方法,Metastat會根據樣本情況自動調整統計的方法(秩和檢驗或fisher檢驗),而LEfSe則使用了秩和檢驗和線性判別分析(LDA),這3種統計分析方法篩選結果均是可信的,老師可以根據自己的研究背景選擇最為符合的分析結果。
05 對於生物學重復偏離較大的樣本,如何進行分析?
生物學重復通常建議5個以上,至少3個。對於重復樣品間存在較大差異的個別樣本,一般建議:
1. 從樣品的准備過程進行分析,生物學重復的樣品,除了和設定的分組條件有關外,可能還受到很多其他因素的影響,進而造成分析結果出現差異;
2. 對於出現顯著離群的個別樣本,推測可能為樣本自身的原因(如在采樣、保藏、提取、擴增過程中樣本出現了問題等),建議剔除該樣本后,再進行分析。
個人經驗:偏離較大的個別樣品,對整體的統計是影響不大的,如果不是明顯人為原因的錯誤,不建議原始數據隨便刪除此樣品。如果出現多個樣品出現異常,比如分為差別很大的兩類,要檢查操作中是與有影響的步驟,如種子混雜,分批取材、提取和擴增是否使用不同方法或試劑、barcode或index是否有偏好,建庫和測序是否同批等,找不到原因可再完全重復實驗驗證,確保實驗結果准確是最重要的。
宏基因組常見問題
01 在組裝過程中,組裝后的基因為什么不完整?
宏基因組組裝的效果主要跟以下幾個因素有關:樣本的測序數據量,物種的多樣性,物種豐度分布不均勻等,這些因素都會造成宏基因組組裝比細菌等單物種的組裝更加困難,這也是目前宏基因組研究中有待突破的重點。
02 16S擴增子和宏基因組分析結果存在差別的原因?
1、兩者的分析方法存在較大差異:16S是先擴增后測序,而且不同物種DNA的擴增倍數也不一致;在宏基因組DNA測序中,測序深度可能不是十分充分,並且宏基因組分析得到的相對物種豐度的差異與DNA提取以及測序的方法都密切相關;
2、兩者采用的物種注釋方法及數據庫都存在着一定差別:16S采用的是將16S rDNA與Greengene(或silva)數據庫進行比對注釋,只能注釋到細菌;而宏基因組則是將預測得到的基因與NR數據庫比對從而進行注釋,宏基因組注釋得到的物種信息更為全面,不僅包括細菌,還包括真菌、古菌以及病毒等
3、此外,16S擴增子和宏基因組分析得到的注釋結果也會存在一定的相似點,比如在門水平上相對豐度排名靠前的物種的類別會出現相似等情況;
綜上所述,兩者的分析方法本身存在一定的差異,是導致16S擴增子和宏基因組分析得到的注釋結果存在差別的主要原因,但同時兩者也有一定的相似之處。
個人經驗實例:兩者在細菌有多大差別?下面舉一個我同學海哥的分析實例,對某樣品同時進行16S和metagenome,其中展示了細菌中豐度大於1%的菌屬種類,16S有15個屬,metagenome有14個屬,兩者共有只有3個屬,用黃色高亮顯示。
16S by QIIME taxonomy greengene


個人感覺差異原因主要來自測序目標、技術方法、分析軟件及數據庫均不同。因為很多文章在Taxonomy水平更多使用16s的結果,而功能注釋KEEG/COG則使用metagenome的結果。
03 宏基因組組裝中,為什么不能把所有樣本數據合並在一起進行組裝?
不同樣本中高豐度物種的差異很大,如果把所有樣本都混合在一起進行組裝,將會大大增加數據的復雜度,組裝效果可能會更差。
04 在組裝過程中,是否是共有的高豐度基因可以組裝出來,而個體特有的低豐度的基因不能組裝出來?
1)由於受到測序深度及測序成本的影響,在現在的宏基因組文章中,測序數據量一般選擇6G,可以測出樣品中絕大多數的微生物,但是對於一些低豐度的物種,因為測序深度的原因,確實很有可能會組裝不出來;
2)在宏基因組分析中,也一般多關注的是較高豐度物種的組成情況,如果要對低豐度物種進行特殊分析,一般需要加大測序數據量,或者在前期提取過程中經過一些特殊的處理,盡可能的富集出多的低豐度物種,再進行測序分析。
個人經驗:6G數據只適合簡單系統,如人類腸道等,對於復雜系列,如土壤,致使測序幾十到幾百G,也可能也會深度不足。
05 宏基因組測序是否可以對抗性基因相關性進行分析,所用數據庫是什么?
隨着人們對抗性基因相關研究的廣泛關注,我們宏基因組的標准分析中推出了抗性基因的相關分析。並且,由於自2009年ARDB數據庫再無更新,因此我們目前所用的抗性基因數據庫為CARD數據庫。