概念
生物標志物,即傳說中的biomarker,是一類可測量的,用來表征疾病狀態的物質,通常用於表征:
- 疾病的狀態(是否為某種疾病/某種亞型);
- 葯物敏感性,用於用葯指導;
- 生理狀態監測。
類型
-
預后指標
預測疾病的預后效果(獨立於治療),如AB1-42可用於診斷老年痴呆預后。 -
預測型標志物
預測疾病類型/針對某種治療的響應,如HER2、EGFR、 K-RAS等突變可用於預測腫瘤發生的幾率。 -
葯物監測標志物
對某治療的實時評價,如血液中的CRP、 IL-6、TNFa 濃度可監控炎症的進展。
效果評價
受試者工作特征曲線(Receiver Operating Characteristic,ROC)是評估一個生物標志物的預測性能的有用的圖形工具,指示一個生物標志物組區分兩個群組(如實驗組和對照組,疾病和健康)的能力。
如果把患病視為陽性,把健康視為陰性。敏感性(sensitivity)表示真陽性除以真陽性與假陰性之和,又稱為真陽性率,如下圖所示:
特異性(specificity)表示真陰性除以真陰性與假陽性之和,又稱為真陰性率,如下圖所示:
1-真陰性率=假陽性率,所以ROC曲線橫軸是假陽性率,縱軸是真陽性率,曲線下的面積為AUC值,通常介於0.5-1之間,面積越大預測效果越好。
上圖是單變量的ROC分析,針對單個代謝組分子或單組學數據。實際上,可以將多個代謝物或多個組學數據作為組合來進行預測,稱之為多變量ROC分析。不同模型預測的結果也可以同時在一張圖中比較。
多變量ROC分析
多變量ROC分析主要是用於探尋最佳的生物標志物組。通過選擇RandomForest,SVM和PLS-DA 等多元統計分類算法,選擇不同的代謝物排序組合,反復抽樣的構建分類模型,獲得最佳的生物標志物組。
在多元ROC分析中,選擇最佳的變量組合主要是通過重復隨機抽樣交叉驗證(CV)的算法來識別變量重要性。在每次驗證中,三分之二(2/3)的樣本根據VIP評分(PLSDA)、精度下降(隨機森林)或加權系數(線性支持向量機)來評價每個特征的重要性。選擇排名前2,3,5,10,100(Max)重要特征用來建立分類/回歸模型,並在1/3的剩余樣本上進行驗證。
如下圖:
上圖是基於PLS-DA 分類方法,變量重要性依據PLS-DA分析的VIP值排序,分別選擇前2個,前3個,前5個,前10個,前20個和全部變量的模型的ROC曲線和AUC值。可以看出,圖中最佳的生物標志物組是基於PLS-DA分析VIP值排序的前2個代謝物組成的生物標志物組。
驗證
驗證上述篩選出的生物標志物組,或選擇特定的生物標志物組,計算區分效果(AUC)值。可以從構建的最佳生物標志物組中進一步選擇樣本進行驗證,也可以手動選擇生物標志物組進行分析。
如上例中篩選出的2個代謝物的為最佳生物標志物組進行驗證下。
圖中CV表示經過100次交互驗證后的ROC曲線;Holdout 表示手動選擇測試集后計算得到的ROC曲線,說明該生物標志物組預測效果良好。
關於單變量和多變量ROC曲線分析的比較
多變量ROC曲線是基於多元統計(SVM、PLS-DA或隨機森林)的交叉驗證結果。而經典的單變量ROC曲線是基於測試集中所有數據點內所有可能的截斷點的綜合效果。因此由交叉驗證的ROC曲線得到的AUC更適合預測,而單變量ROC計算的AUC往往容易過擬合。換句話說,單變量ROC可以被看作是特征的區分“潛力”的一個指標,而不是它的實際表現。
分析工具
幾個可以進行ROC分析的R包。
MetaboAnalyst也具有相應的分析模塊。