偏最小二乘回歸（PLSR）- 2 標准算法（NIPALS）

本文轉載自查看原文 2013-10-30 10:02 14721

1 NIPALS 算法

Step1：對原始數據X和Y進行中心化，得到X₀和Y₀。從Y₀中選擇一列作為u1，一般選擇方差最大的那一列。

注：這是為了后面計算方便，如計算協方差時，對於標准化后的數據，其樣本協方差為cov(X,Y)=X^TY/(n-1)。

Step2：迭代求解X與Y的變換權重（w1，c1）、因子（u1，t1），直到收斂

step 2.1：利用Y的信息U1，求X的變換權重w1（w1實現有X0到因子t1的變換，t1=X₀*w₁）及因子t1。從而將X0的信息用t1來近似表達。

（2.1）

（2.2）

（2.3）

Step2.2：利用X的信息t1，求Y的變換權重c1（c1實現有Y0到因子u1的變換，u1=Y₀*c₁），並更新因子u1。從而將Y0的信息用t1來近似表達。

（2.4）

（2.5）

（2.6）

Step2.5：判斷是否已找到合理解

（2.7）

若<閾值（如）則繼續下面步驟；否則，取，返回step2.1。

注：

1）以上過程的意義及其收斂性的直觀分析

     a）公式2.1，實際上求解了由Y的因子u1到X的回歸模型的系數，公式2.2與2.3將X映射為第一個因子t1。

     b）同理，公式2.4，實際上求解了由X的因子t1到Y的回歸模型的系數，公式2.5與2.6將X映射為第一個因子t1。

      c）這里交替建立X與Y直接回歸關系的方式，通常會很快收斂。

2）w1與c1的其他求法。[2,3]中已經證明以上求解過程收斂后找到的解w1與c1可以利用矩陣分析方法找到

     a）特征值分解方法（Eigen Value Decomposition）：w1是的最大特征值的單位特征向量，c1是的最大特征值的單位特征向量，

     b）SVD分解法（singular vector decomposition）：w1和c1分別於對X₀^TY₀進行SVD分解獲得的第一對左奇異向量（left singular vector）和右奇異向量的單位

向量。

Step3：求X與Y的殘差矩陣

step 3.1：求X的載荷（X-loading）p1（p1反映X₀與因子t1的直接關系，）

注：前面求得X的變換權重w1是由X0到t1的關系，此處的p1是由t1到X0的關系。而且，由於后續的Wi（i>1）是根據Xi的殘差求得的，因此它無法反映T到X0的關系。所以，才要求出P以直接反映T到X0的關系）

(2.8)

p1求解公式的推導如下

a）前面已求出t1，現在希望用t1來表達X₀，建立回歸模型

b）模型不能表達的信息即為X₀的殘差矩陣X_1。

c）上式的關鍵是求p1，其求解公式推導過程：對轉置得，兩邊右乘t1有，從而有

注：p1代表因子t1在X上的載荷（loadings），它反映了原始變量X與第一個因子向量t1間的關系。

step 3.2：求X₀的殘差X₁。此殘差表達了u1所不能反映的X₀中的信息。

(2,9)

step 3.3：求Y的載荷（Y-loading）q1（q1反映Y₀與因子U1的關系，）

(2.10)

step 3.4：建立X因子t1與Y因子u1間的回歸模型，用t1預測u1的信息。

(2.11)

step 3.5：求Y₀的殘差Y₁。此殘差表達了X因子t1所不能預測的Y₀中的信息

(2.12)

注：這里利用，建立t1與Y間的關系。

Step4：利用X1與Y1，重復上面步驟，求解下一批PLS參數（因子、轉換權重、載荷、回歸系數等）。

在這個算法中，當一個因子計算出來后，進一步計算出X（及Y）的殘差。下一個因子是從當前殘差矩陣計算出來，因此PLS模型參數（因子scores，loadings, weights)與最初的X₀無關，而是與殘差有關。

2 NIPALS-PLS 參數的理解

1）變換權向量w

在第二輪及以后的計算過程中，權向量w_a將殘差X_a-1變換為因子得分ta，而不是對原始預處理后的數據X₀直接進行變換，這阻礙了對於因子的有效解釋。實際上，權向量在PLS回歸模型中的解釋中用處不大。

2）構建X₀到T直接聯系的權向量R

，

PLS算法執行完成后，我們得到所有的因子t，那么我們就可以直接建立原始數據X₀與其之間的轉換權重矩陣R。其實R就是由X₀到T的回歸系數，其計算公式為

3 NIPALS-PLS 的預測過程

當完成PLS模型構建后，我們得到的PLS模型參數包括：

1）轉換權重：W（X-weights），C（Y-wights）

2）因子得分：T（X-factor scores），U（Y-factor scores）

3）載荷：P（X-loadings），Q（Y-loadings）

當來了一條新數據，其預測計算過程如下

1）預處理：。注：預處理方法與建模時保持一致，這里公式采用中心化處理方法。

2）依次求出求的各因子和殘差





3）計算預測值



上面是由T到Y預測值的回歸方程，而不是由X0到Y預測值的回歸方程。如果在PLS建模過程中獲得第2節中介紹的可將X0直接轉換為T的權重R，那么就能獲得一個針對X0的更直接的回歸公式。

，回歸系數

參考文獻

[1] S. de Jong. SIMPLS: an alternative approach to partial least squares regression. Chemometrics and Intelligent Laboratory Systems, 18:251–263, 1993.

[2] R. Manne. Analysis of Two Partial-Least-Squares Algorithms for Multivariate Calibration. Chemometrics and Intelligent Laboratory Systems, 2:187–197, 1987.

[3] A. H¨oskuldsson. PLS Regression Methods. Journal of Chemometrics, 2:211–228,1988.

[4]

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【數學建模】偏最小二乘回歸分析（PLSR）【建模應用】PLS偏最小二乘回歸原理與應用 R語言中的偏最小二乘回歸PLS-DA Mathematica/偏導數/最小二乘法(線性回歸) Matlab 偏最小二乘 PLSregress 拓端數據tecdat|Matlab中的偏最小二乘法（PLS）回歸模型，離群點檢測和變量選擇最小二乘回歸，嶺回歸，Lasso回歸，彈性網絡線性回歸——最小二乘法_實例（一）算法學習筆記——最小二乘法的回歸方程求解 python3 偏最小二乘法實現