數據挖掘之一——M5P樹狀回歸演算法

如果哪天你看到了這個文章，說明你是xixi，真懷念一起讀博士的日子啊。

數據挖掘 M5P樹狀回歸回歸演算法

M5P樹狀回歸演算法可根據資料的分布建立多種回歸模型，依據輸入資料的不同來決定適用的回歸模型。比起傳統的線性回歸，M5P能夠准確預測非線性的資料，而且規則與回歸模型容易解讀。相較於類神經網路和支持向量機等黑箱演算法，白箱演算法的M5P更容易用於研究結果的解釋上。

用數值來預測數值的問題叫做「回歸」(regression)，而「回歸」的經典演算法是線性回歸(Linear Regression) 。線性回歸能夠有效處理具有明確線性規律的資料，像是緯度的高低跟氣溫之間的關系，這可以讓我們容易用多元回歸來解釋資料的規律。但是若資料呈現非線性的分布，那線性回歸的效果就很差。舉例來說，月份跟氣溫的關系就不是單純的線性關系。較小跟較大的月份接近冬季，氣溫較低；位於中間的月份接近夏季，氣溫較高，這樣的情況就是非線性資料。

處理非線性資料時，常見的做法會采用類神經網路( 多層次感知機或深度學習，也就是現在流行的AI)或是支持向量機的回歸演算法SMOreg 。但是這些黑箱演算法所建立的預測模型無法讓人解讀，對於解釋研究結果的幫助有限。這時候，M5P樹狀回歸預測演算法就是最佳的解決方案啦。下面舉例進行說明：

下面這份散點圖資料，共300個樣本，涵蓋25個地區從1月份到12月份的氣溫數據，25*12=300。

M5P樹狀回歸

在month-temperature這份資料集中，我們要用月份month來預測氣溫temperature。我將月份與氣溫畫成了上面的散布圖。每個月的氣溫有很多個點，這是因為地點不同所導致。但這次的問題我們不考慮地點，僅看月份本身。從散布圖中可以看到不同月份的氣溫分布不太一樣。大致上來說，1月到3月、12月等的氣溫較低，6月到9月的氣溫較高，由此就可以看出冬季與夏季的差別。

這次是因為輸入資料(屬性)只有一個，而且是我們熟悉的月份，所以我們容易看出資料的規律。若是在實際應用時，輸入的資料往往高達二三十項。要如何找出資料的規律，並建構出能夠准確預測的模型，就要借助M5P演算法的技術了。接下來我們要對建模結果進行解讀：