相關向量機是一種稀疏概率模型,是一種核函數作為基函數且參數具有獨立先驗精度(方差)的特殊線性回歸模型。相關向量機的出現彌補了支持向量機的一些不足,如提供了概率解釋,不要求核函數必須是正定的,同時保留了支持向量機的一些優點,如它的解是稀疏的,運用核函數在低維空間處理高維空間的問題。
相關向量機是一種線性回歸模型,只是比通常的模型加了一些限制,線性模型均值如下所示:
      
在相關向量機里面,
 表示的是一個由核函數組成的向量,它的第n個元素表示一個核函數
。用
表示數據矩陣,它的每一行表示一個核向量
, t表示對應的目標值。那么似然函數如下所示:

與一般線性模型不同的是,我們對每個
都給出一個相應的超參數
,因此w的先驗如下所示:

下面就是按照一般線性回歸的思路得到w的后驗概率,具體可參數prml第三章線性回歸一章。

其中
,
這里面
是一個很常見的形式,表示了數據相應的精度矩陣,而
表示先驗部分的精度矩陣。
相關向量機的關鍵部分在於運用經驗貝葉斯求解超參數
。邊緣似然函數通過對w進行積分掉得到:

這里為了公式簡潔,省略了其它相關參數。
積分結果很簡潔,是一個高斯分布
 
其中A是對角線為
元素的對角矩陣
下面就是如何通過最大化邊緣似然函數來求解
的問題了,即經驗貝葉斯。這里面公式推導比較繁瑣,只給出最后結果。
   ,
, 
以上就是超參數的解,從上面可以看出,我們沒有給出一個解析解,而是一種迭代形式,可以通過迭代的方式將超參數求出。
這里需要解釋為什么它是稀疏的,因為通過上面的迭代過程,可以發現大部分超參數都趨向於一個非常的大數,可以認為是無窮大。從上面的式子中可以看出,參數
與相應的超參數
是一種反相關的關系,因此如果超參數趨向無窮大,相應的參數趨向0,從而相應的基函數對整個數據的預測就沒有作用。那些剩下的超參數非無窮大的點與預測數據直接相關,稱作相關向量,這種機制就是自動相關決策機制(automatic relevance determination ,簡記ARD)。
最后總結一下相關向量機,相關向量只是在一般的線性模型上加了一些限制,一個是用了核向量作為基函數,一個是用獨立的超參數作為參數的精度,應用經驗貝葉斯和自動相關決策機制,得到稀疏解。這里面涉及一些復雜計算,具體可以參考PRML第三章和第七章。
參考文獻
1 Pattern recognition and machine learning (第三章、第七章)作者:Christopher M.Bishop
