機器學習：共軛梯度算法（PCG）

本文轉載自查看原文 2018-06-02 19:13 903 機器學習

今天介紹數值計算和優化方法中非常有效的一種數值解法，共軛梯度法。我們知道，在解大型線性方程組的時候，很少會有一步到位的精確解析解，一般都需要通過迭代來進行逼近，而 PCG 就是這樣一種迭代逼近算法。

我們先從一種特殊的線性方程組的定義開始，比如我們需要解如下的線性方程組：

A x = b

這里的 $A (n \times n)$ 是對稱，正定矩陣， $b (n \times 1)$ 同樣也是已知的列向量，我們需要通過 $A$ 和 $b$ 來求解 $x (n \times 1)$ , 這其實是我們熟知的一些線性系統的表達式。

首先，我們來看一種直觀的解法，我們定義滿足如下關系的向量為關於矩陣 $A$ 的共軛向量，

u^{T} A v = 0

因為矩陣 $A$ 是對稱正定矩陣，所以矩陣 $A$ 定義了一個內積空間：

⟨ u, v ⟩_{A} := ⟨ A u, v ⟩ = ⟨ u, A^{T} v ⟩ = ⟨ u, A v ⟩ = u^{T} A v

基於此，我們可以定義一組向量 $P$

P = {p_{1}, \dots, p_{n}}

其中的向量 $p_{1}$ , $p_{2}$ , … , $p_{n}$ 都是互為共軛的，那么 $P$ 構成了 $R^{n}$ 空間的一個基，上述方程的解 $x_{*}$ 可以表示成 $P$ 中向量的線性組合：

x_{*} = \sum_{i = 1}^{n} α_{i} p_{i}

根據上面的表達式，我們可以得到：

A x_{*} = \sum_{i = 1}^{n} α_{i} A p_{i} p_{k}^{T} A x_{*} = \sum_{i = 1}^{n} α_{i} p_{k}^{T} A p_{i} (Multiply left by p_{k}^{T}) p_{k}^{T} b = \sum_{i = 1}^{n} α_{i} {⟨ p_{k}, p_{i} ⟩}_{A} (A x_{*} = b and ⟨ u, v ⟩_{A} = u^{T} A v) ⟨ p_{k}, b ⟩ = α_{k} {⟨ p_{k}, p_{k} ⟩}_{A} (u^{T} v = ⟨ u, v ⟩ and \forall i \neq k : {⟨ p_{k}, p_{i} ⟩}_{A} = 0)

這意味着：

α_{k} = \frac{⟨ p_{k}, b ⟩}{{⟨ p_{k}, p_{k} ⟩}_{A}}

所以，如果我們要直接求解的，可以先對矩陣 $A$ 進行特征值分解，求出一系列的共軛向量，然后求出系數，最后可以得到方程的解 $x_{*}$

上面的方法已經說明， $x_{*}$ 是一系列共軛向量 $p$ 的線性組合，學過 PCA 的都知道，可以用前面占比高的向量組合進行逼近，而不需要把所有的向量都組合到一起，PCG 也是用到了這種思想，通過仔細的挑選共軛向量 $p$ 來重建方程的解 $x_{*}$ 。

我們先來看下面的一個方程：

f (x) = \frac{1}{2} x^{T} A x - x^{T} b, x \in R^{n}

對上面的方程求導，我們可以得到：

D^{2} f (x) = A

D f (x) = A x - b

可以看到，方程的一階導數就是我們需要解的線性方程組，令一階導數為 0，那么我們需要解的就是這樣一個線性方程組了。

假設我們隨機定義 $x$ 的一個初始向量為 $x_{0}$ ，那么我們可以定義第一個共軛向量為 $p_{0} = b - A x_{0}$ , 后續的基向量都是和梯度共軛的，所以稱為共軛梯度法。

下面給出詳細的算法流程：

這里寫圖片描述

而 preconditioned conjugate gradient method 與共軛梯度法的不同之處在於預先定義了一個特殊矩陣 $M$ ：

這里寫圖片描述

參考來源：wiki 百科

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 機器學習——梯度下降算法機器學習--線性回歸與梯度算法機器學習概念之梯度下降算法（全量梯度下降算法、隨機梯度下降算法、批量梯度下降算法）【機器學習之數學】02 梯度下降法、最速下降法、牛頓法、共軛方向法、擬牛頓法機器學習（一）梯度下降算法的實現及過程分析機器學習算法 --- 邏輯回歸及梯度下降機器學習：梯度下降算法原理講解機器學習——梯度下降算法數學推導《機器學習(周志華)》筆記--線性模型（4）--梯度解釋、梯度下降法算法思想、算法原理、算法流程、代碼實現機器學習算法