貝葉斯線性回歸（Bayesian Linear Regression）

本文轉載自查看原文 2019-09-07 21:06 478 數據挖掘

貝葉斯線性回歸（Bayesian Linear Regression）

2016年06月21日 09:50:40 Duanxx 閱讀數 54254更多

分類專欄：監督學習

本文鏈接： https://blog.csdn.net/daunxx/article/details/51725086

貝葉斯線性回歸（Bayesian Linear Regression）

標簽（空格分隔）：監督學習

@ author : duanxxnj@163.com
@ time : 2015-06-19

原文地址

貝葉斯線性回歸Bayesian Linear Regression

本文的研究順序是：

極大似然估計最大后驗估計貝葉斯估計貝葉斯線性回歸

關於參數估計

在很多的機器學習或數據挖掘的問題中，我們所面對的只有數據，但數據中潛在的概率密度函數是不知道的，其概率密度分布需要我們從數據中估計出來。想要確定數據對應的概率密度分布，就需要確定兩個東西：概率密度函數的形式和概率密度函數的參數。

有時可能知道的是概率密度函數的形式(高斯、瑞利等等)，但是不知道具體的參數，例如均值或者方差；還有的時候可能不知道概率密度的類型，但是知道一些估計的參數，比如均值和方差。

關於上面提到的需要確定的兩個東西：概率密度函數的形式和參數，至少在機器學習的教課書上，我所看到的情況都是：給了一堆數據，然后假設其概率密度函數的形式為高斯分布，或者是混合高斯分布，那么，剩下的事情就是對高斯分布的參數， $μ$

其實，常用的參數估計方法有：極大似然估計、最大后驗估計、貝葉斯估計、最大熵估計、混合模型估計。他們之間是有遞進關系的，想要理解后一個參數估計方法，最好對前一個參數估計有足夠的理解。

要想清晰的說明貝葉斯線性回歸，或者叫做貝葉斯參數估計，就必須對極大似然估計、最大后驗估計做詳細的說明，他們之間是有遞進的關系的。

極大似然估計

在之前《多項式回歸》的文章中，用最后一小節是線性回歸的概率解釋，其中就說明了以平方誤差維損失函數的最小二乘法和極大似然估計的等價性，在這個基礎上，本文更為詳細的討論極大似然估計。

這里先以一個分類問題來說明一般參數估計面對的數據形式。考慮一個 $M$

前面已經介紹過了，想要確定數據的概率分布，需要知道概率密度函數的形式和參數，這里首先做一個基本假設：概率分布的形式已知，比如假設每個類別的數據都滿足高斯分布，那么，似然函數就可以以參數 $θ_{i}$

為了強調概率分布 $p (x | ω_{i})$

在概率論中一直有兩大學派，分別是頻率學派和貝葉斯學派。簡單點說，頻率學派認為，概率是頻率的極限，比如投硬幣，當實驗次數足夠大時，正面朝上的頻率可以認為是這枚硬幣正面朝上的概率，這個是頻率學派。但是，如果要預測一些未發生過的事情，比如，北極的冰山在2050年完全融化的概率，由於這個事情完全沒有發生過，所以無法用頻率來代替概率表示，只能研究過去幾十年，北極冰山融化的速率，並將其作為先驗條件，來預測北極的冰山在2050年完全融化的概率，這就是概率的貝葉斯學派。上面的問題，如果用貝葉斯學派的記法的話，是： $p (x | ω_{i}, θ_{i})$

從上面的描述中可以知道，利用每一個類 $X_{i}$

設 $x_{1}, x_{2}, . . ., x_{N}$

p (X; θ) \equiv p (x 1, x 2, . . ., x N; θ) = \prod k = 1 N p (x k; θ)

注意：這里的 $p (x_{k}; θ)$

需要重申一下，想要得到上面這個公式，是做了幾個基本的假設的，第一：假設 $M$

此時，就可以使用最大似然估計(Maximum Likelihood,ML)來估計參數 $θ$

θ^M L = a r g max θ \prod k = 1 N p (x k; θ)

為了得到最大值， ${\hat{θ}}_{M L}$

\partial \prod N k = 1 p ( x k ; θ ) \partial θ = 0

一般我們取其對數形式：

L (θ) \equiv l n \prod k = 1 N p (x k; θ)

\partial L ( θ ) \partial θ = \sum k = 1 N \partial l n p ( x k ; θ ) \partial θ = \sum k = 1 N

需要注意：極大似然估計對應於似然函數的峰值

極大似然估計有兩個非常重要的性質：漸進無偏和漸進一致性，有了這兩個性質，使得極大似然估計的成為了非常簡單而且實用的參數估計方法。這里假設 $θ_{0}$

漸進無偏

極大似然估計是漸進無偏的，即：

lim N \to \infty E [θ^M L] = θ 0

也就是說，這里認為估計值 ${\hat{θ}}_{M L}$

漸進一致

極大似然估計是漸進一致的，即：

limN→∞prob{∥θ^ML−θ0∥⩽ϵ}=1limN→∞prob{‖θ^ML−θ0‖⩽ϵ}=1

這個公式還可以表示為：

lim N \to \infty E ∥ θ^M L - θ 0 ∥ 2 = 0

對於一個估計器而言，一致性是非常重要的，因為存在滿足無偏性，但是不滿足一致性的情況，比如， ${\hat{θ}}_{M L}$

注意：以上兩個性質，都是在漸進的前提下（ $N \to \infty$

最大后驗估計

在最大似然估計（MAP）中，將 $θ$

從最大后驗估計開始，將參數 $θ$

這里一定要注意，在最大似然估計中，參數 $θ$

根據貝葉斯理論：

p (θ | X) = p ( θ ) p ( X | θ ) p ( X )

這就是參數 $θ$

θ^M A P = a r g max θ p (θ | X) = a r g max θ p (θ) p (X |

為了得到參數 $θ$

p ( θ | X ) \partial θ = p ( θ ) p ( X | θ ） \partial θ = 0

注意：這里 $p (X | θ)$

這里需要說明，雖然從公式上來看 $M A P = M L * p (θ)$

在MAP中， $p (θ)$

貝葉斯估計

注意：以下所有的概率分布表述方式均為貝葉斯學派的表述方式。

貝葉斯估計核心問題

為了防止標號混淆，這里定義已有的樣本集合為 $D$

貝葉斯估計第一個重要元素

雖然 $p (x)$

貝葉斯估計第二個重要元素

由於參數 $θ$

現在，將貝葉斯估計核心問題 $p (x | D)$

p (x | D) = \int p (x, θ | D) d θ = \int p (x | θ, D) p (θ | D) d θ

上面式子中， $x$

p (x | D) = \int p (x | θ) p (θ | D) d θ

下面這句話一定要理解：這里 $p (x | θ)$

p (θ | D) = p ( D | θ ) p ( θ ) p ( D ) = p ( D | θ ) p ( θ ) \int

p (D | θ) = \prod k = 1 N p (x k | θ)

上面這個式子就是貝葉斯估計最核心的公式，它把類條件概率密度 $p (x | D)$

貝葉斯估計的增量學習

為了明確的表示樣本集合 $D$

p (D n | θ) = p (x n | θ) p (D n - 1 | θ)

可以很容易得到：

p (θ | D n) = p ( x n | θ ) p ( D n - 1 | θ ) p ( θ ) \int p (

當沒有觀測樣本時，定義 $p (θ | D^{0}) = p (θ)$

貝葉斯線性回歸

根據之前的文章《線性回歸》、《多項式回歸》中關於極大似然估計的說明，以及本文前面關於極大似然估計的論述，可以很容易知道，如果要將極大似然估計應用到線性回歸模型中，模型的復雜度會被兩個因素所控制：基函數的數目和樣本的數目。盡管為對數極大似然估計加上一個正則項（或者是參數的先驗分布），在一定程度上可以限制模型的復雜度，防止過擬合，但基函數的選擇對模型的性能仍然起着決定性的作用。

上面說了那么大一段，就是想說明一個問題：由於極大似然估計總是會使得模型過於的復雜以至於產生過擬合的現象，所以單純的適用極大似然估計並不是特別的有效。

當然，交叉驗證是一種有效的限制模型復雜度，防止過擬合的方法，但是交叉驗證需要將數據分為訓練集合測試集，對數據樣本的浪費也是非常的嚴重的。

基於上面的討論，這里就可以引出本文的核心內容：貝葉斯線性回歸。貝葉斯線性回歸不僅可以解決極大似然估計中存在的過擬合的問題，而且，它對數據樣本的利用率是100%，僅僅使用訓練樣本就可以有效而准確的確定模型的復雜度。

這里面對的模型是線性回歸模型，其詳細的介紹可以參見前面的文章《線性回歸》,線性回歸模型是一組輸入變量 $x$

y (x, w) = w 0 + \sum j = 1 M ω j ϕ j (x)

這里 $ϕ_{j} (x)$

y (x, w) = \sum j = 0 M ω j ϕ j (x) = w T ϕ (x)

w = (w 0, w 1, w 2, . . ., w M)

ϕ = (ϕ 0, ϕ 1, ϕ 2, . . ., ϕ M)

則線性模型的概率表示如下：

p (t | x, w, β) = N (t | y (x, w), β - 1 I)

假設參數 $w$

p (w) = N (w | 0, α - 1 I)

一般來說，我們稱 $p (w)$

那么，線性模型的對數后驗概率函數：

l n p (θ | D) = l n p (w | T) = - β 2 \sum n = 1 N { y ( x n , w ) -

這里 $T$

貝葉斯線性回歸的學習過程

根據前面關於貝葉斯估計的增量學習可以很容易得到下面這個式子，這個就是貝葉斯學習過程：在前一個訓練集合 $D^{n - 1}$

p (θ | D n) \propto p (x n | θ) p (θ | D n - 1)

有了上面的基礎知識，這里就着重的講下面這幅圖，這個圖是從RMPL第155頁截取下來的，這幅圖清晰的描述了貝葉斯線性回歸的學習過程，下面結合這幅圖，詳細的說明一下貝葉斯學習過程。

image_1almvfrg71b51132bg166ndsbs9.png-442.7kB

首先，說一下這里的模型：

y (x, w) = w 0 + w 1 x

第一行：
第一行是初始狀態，此時只有關於 $w$

第二行：
此時有了第一個樣本點 $x_{1}$

w 1 = 1 9 - 10 9 w 0

近似為左邊那幅圖的畫法。由於第二行的先驗分布是第一行的后驗分布，也就是第一行的中間那幅圖。則，第二行的后驗分布的求法就是：將第二行的第左邊那幅圖和第一行的中間那幅圖相乘，就可以得到第二行中間那幅圖。第二行最右邊那幅圖就是從第二行中間那幅圖中隨機抽取一些點 $(w_{0}, w_{1})$

第三行之后，就可以一次類推了。

上面就是貝葉斯學習過程的完整描述。

貝葉斯回歸的優缺點

優點：
1. 貝葉斯回歸對數據有自適應能力，可以重復的利用實驗數據，並防止過擬合
2. 貝葉斯回歸可以在估計過程中引入正則項
缺點：
1. 貝葉斯回歸的學習過程開銷太大

貝葉斯脊回歸（Bayesian Ridge Regression）

前面已經證明過了，如果貝葉斯線性回歸的先驗分布為

p (w) = N (w | 0, α - 1 I)

那么，其最終的后驗分布公式為：

l n p (θ | D) = l n p (w | T) = - β 2 \sum n = 1 N { y ( x n , w ) -

這個相當於脊回歸，所以將這種特殊情況稱為貝葉斯脊回歸，它擁有脊回歸的所有特性，具體可以參見前面的文章《脊回歸》。

下面這份代碼提供了貝葉斯回歸的用法，以及其和最小二乘法的比較。

#!/usr/bin/python # -*- coding: utf-8 -*- """ author ： duanxxnj@163.com time : 2016-06-21-09-21 貝葉斯脊回歸 這里在一個自己生成的數據集合上測試貝葉斯脊回歸 貝葉斯脊回歸和最小二乘法(OLS)得到的線性模型的參數是有一定的差別的 相對於最小二乘法(OLS)二樣，貝葉斯脊回歸得到的參數比較接近於0 貝葉斯脊回歸的先驗分布是參數向量的高斯分布 """ print(__doc__) import numpy as np import matplotlib.pyplot as plt from scipy import stats import time from sklearn.linear_model import BayesianRidge, LinearRegression ############################################################################### # 隨機函數的種子 np.random.seed(int(time.time()) % 100) # 樣本數目為100，特征數目也是100 n_samples, n_features = 100, 100 # 生成高斯分布 X = np.random.randn(n_samples, n_features) # 首先使用alpha為4的先驗分布. alpha_ = 4. w = np.zeros(n_features) # 隨機提取10個特征出來作為樣本特征 relevant_features = np.random.randint(0, n_features, 10) # 基於先驗分布，產生特征對應的初始權值 for i in relevant_features: w[i] = stats.norm.rvs(loc=0, scale=1. / np.sqrt(alpha_)) # 產生alpha為50的噪聲 alpha_ = 50. noise = stats.norm.rvs(loc=0, scale=1. / np.sqrt(alpha_), size=n_samples) # 產生目標數據 y = np.dot(X, w) + noise ############################################################################### # 使用貝葉斯脊回歸擬合數據 clf = BayesianRidge(compute_score=True) clf.fit(X, y) # 使用最小二乘法擬合數據 ols = LinearRegression() ols.fit(X, y) ############################################################################### # 作圖比較兩個方法的結果 plt.figure(figsize=(6, 5)) plt.title("Weights of the model") plt.plot(clf.coef_, 'b-', label="Bayesian Ridge estimate") plt.plot(w, 'g-', label="Ground truth") plt.plot(ols.coef_, 'r--', label="OLS estimate") plt.xlabel("Features") plt.ylabel("Values of the weights") plt.legend(loc="best", prop=dict(size=12)) plt.show()

figure_1-1.png-67.4kB

其運行結果為：

貝葉斯脊回歸參數：
[ -7.16688614e-02 3.73638195e-02 -4.04171217e-02 7.28338457e-03 ... 2.60774221e-01 4.26079127e-02 1.01660304e-02 6.79853349e-02] 最小二乘法參數： [-1.77270023 -0.38832798 0.58907738 -1.61514115 0.58202424 0.09483505 ... -1.37056305 2.81533169 0.02429617 0.90196961]

可以很容易的看出，相對於最小二乘法(OLS)二樣，貝葉斯脊回歸得到的參數比較接近於0

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 17.貝葉斯線性回歸(Bayesian Linear Regression) 線性回歸 Linear Regression 貝葉斯網絡(Bayesian networks) 線性回歸模型的貝葉斯估計2-預測分布【Bayesian】貝葉斯決策方法（Bayesian Decision Method） Matlab實現線性回歸和邏輯回歸: Linear Regression & Logistic Regression Python - 線性回歸（Linear Regression) 的 Python 實現通俗理解線性回歸(Linear Regression) Python 線性回歸（Linear Regression) 基本理解 Linear Regression(線性回歸)（一）—LMS algorithm