【深度學習】線性回歸（Linear Regression）——原理、均方損失、小批量隨機梯度下降

本文轉載自查看原文 2021-08-14 20:35 187 學習深度學習/ 深度學習/ 人工智能

1. 線性回歸

　　回歸（regression）問題指一類為一個或多個自變量與因變量之間關系建模的方法，通常用來表示輸入和輸出之間的關系。

　　機器學習領域中多數問題都與預測相關，當我們想預測一個數值時，就會涉及到回歸問題，如預測房價等。（預測不僅包含回歸問題，還包含分類問題）

　　線性回歸（Linear Regression），自變量 $\textbf x$ 與因變量 $y$ 之間的關系是線性的，即 $y$ 可以表示為 $\textbf x$ 中元素的加權和。

　　我們用 $n$ 來表示數據集中的樣本數，對索引為 $i$ 的樣本，其輸入表示為 $\textbf x^{\left ( i \right )}= \begin{bmatrix} x_{1}^{\left ( i \right )} & x_{2}^{\left ( i \right )}\end{bmatrix}^T$ ，其對應的標簽為 $y^{\left ( i \right )}$ 。（這里的輸入 $\textbf x$ 包含2個特征）

2. 線性模型

2.1 一個簡化模型

　　假設1：影響房屋價格的關鍵因素是卧室個數、衛生間個數、居住面積，記為 $x_{1}$ ，$x_{2}$ ，$x_{3}$ 。

　　假設2：房屋價格 $y$ 是關鍵因素的加權和，$y=w_{1}x_{1}+w_{2}x_{2}+w_{3}x_{3}+b$ 。

　　上式中的 $x_{1}$ ，$x_{2}$ ，$x_{3}$ 稱為特征， $w_{1}$ ， $w_{2}$ ， $w_{3}$ 稱為權重（weight），$b$ 稱為偏置（bias），或偏移量、截距。權重決定了每個特征對我們預測值的影響。偏置是指所有特征為0時，預測值應為多少。既是現實中不會有房子居住面積為 $0$ ，或者沒有卧室，但我們仍需要偏置項，因為它拓展了模型的表達能力。

2.2 線性模型

　　給定一個數據集，我們的目標是尋找模型的權重 $\textbf w$ 和偏置 $b$ ，使得根據模型做出的預測大體符合數據里的真實價格。

　　當輸入包含 $d$ 個特征時，我們將預測結果 $\hat{y}\in\mathbb{R}$ 表示為：

$$\hat{y}=w_{1}x_{1}+\cdots+w_{d}x_{d}+b$$

　　我們用向量使表示更簡潔，特征向量 $\textbf x\in\mathbb{R}^{d}$ ，權重向量 $\textbf w\in\mathbb{R}^{d}$ ，偏置 $b\in\mathbb{R}$ ，即：

$$\textbf x=\begin{bmatrix}x_{1} & x_{2} & \cdots & x_{d} \end{bmatrix}^T ， \textbf w=\begin{bmatrix}w_{1} & w_{2} & \cdots & w_{d} \end{bmatrix}^T ， b$$

　　該模型可以用點積式表示：

$$\hat{y}=\textbf w^{T}\textbf x+b$$

　　上式中，向量 $\textbf x$ 僅對應於單個數據樣本的特征，我們使用 $\textbf X\in\mathbb{R}^{n\times d}$ 來表示整個數據集的 $n$ 個樣本。 $\textbf X$ 的每一行是一個樣本，每一列是一種特征。

　　對於特征集合 $\textbf X$ ，預測值向量 $\hat{\textbf y}\in\mathbb{R}^{n}$ 可以通過矩陣-向量乘法表示為：

$$\hat{\textbf y}=\textbf X\textbf w+b$$

　　在開始尋找最優的模型參數 $\textbf w$ 和 $b$ 之前，我們還需要了解：模型質量的度量方式、更新和優化模型參數的方法。

3. 損失函數——平方損失

　　損失函數可以量化目標的真實值和預測值之間的差距。通常使用非負數作為損失，數值越小表示損失越小，完美預測時為 $0$ 。回歸問題中最常用的損失函數就是平方損失函數。

　　當樣本 $i$ 的預測值為 $\hat{y}^{\left ( i \right)}$ ，其對應的真實標簽為 $y^{\left ( i \right)}$ 時，平方損失可以表示為：

$$l^{\left ( i \right)}\left ( \textbf w,b \right)=\frac{1}{2}\left( \hat{y}^{\left ( i \right)}-y^{\left ( i \right)}\right)^{2}$$

　　$\frac{1}{2}$ 是為了求導方便。

　　為了度量模型在整個數據集上的質量，我們計算在訓練集上 $n$ 個樣本的損失均值：

$$L\left( \textbf w,b \right)=\frac{1}{n}\sum_{i=1}^{n}l^{\left( i \right )}\left( \textbf w,b \right )=\frac{1}{n}\sum_{i=1}^{n}\frac{1}{2}\left( \textbf w^{T}\textbf x^{\left( i \right)}+b-y^{\left( i \right)}\right)^{2}=\frac{1}{2n}\Vert \textbf X\textbf w+b-\textbf y\Vert_2$$

　　在訓練模型時，我們希望找到一組參數 $\left(\textbf w^{*},b^{*}\right)$ ，能夠最小化在訓練集上的損失，表示如下：

$$\textbf w^{*},b^{*}=\mathop{\arg\min}_{\textbf w,b}L\left(\textbf w,b\right)$$

4. 解析解（顯式解）

　　線性回歸是一個非常簡單的優化問題，它的解可以用一個公式簡單地表達出來，這類解叫做解析解（Analytical solution）。下面進行求解：

　　首先將偏置 $b$ 合並到權重 $\textbf w$ 中，即 $\textbf X \leftarrow \begin{bmatrix} \textbf X & \textbf 1 \end{bmatrix}$ ，$\textbf w \leftarrow \begin{bmatrix}\textbf w \\ b \end{bmatrix}$ ，此時，$\textbf X \in\mathbb{R}^{n\times \left(d+1\right)}$ ，$\textbf w \in\mathbb{R}^{d+1}$ 。

　　我們的目標是，最小化損失（下式）：

$$L\left( \textbf w \right)=\frac{1}{2n}\Vert \textbf y-\textbf X\textbf w \Vert_2$$

　　損失函數對參數 $\textbf w$ 求導：

$$\frac{\partial L\left(\textbf w \right )}{\partial \textbf w}=\frac{\partial L}{\partial \left(\textbf y-\textbf X\textbf w\right)}\frac{\partial \left(\textbf y-\textbf X\textbf w\right)}{\partial \textbf X\textbf w}\frac{\partial \textbf X\textbf w}{\partial \textbf w}$$

$$=\frac{1}{n}\left(\textbf y-\textbf X\textbf w\right)^{T}_{\left(1,n\right)}I_{\left(n,n\right)}X_{\left(n,d\right)}$$

$$=\frac{1}{n}\left(\textbf y-\textbf X\textbf w \right )^{T}\textbf X$$

　　損失函數是凸函數（不知道為什么,搞懂了再來寫），所以最小值滿足：

$$\frac{\partial L\left(\textbf w\right)}{\textbf w}=0$$

$$\frac{1}{n}\left(\textbf y-\textbf X\textbf w \right )^{T}\textbf X=0$$

$$\textbf w^{*}=\left(\textbf X^{T}\textbf X\right)^{-1}\textbf X\textbf y$$

5. 小批量隨機梯度下降（minibatch stochasitc gradient descent）

5.1 梯度下降

　　大多數深度學習的問題無法得到解析解，這種情況下，我們仍可以有效的訓練模型。

　　梯度下降（gradient descent）算法是深度學習中常用的優化算法，它可以優化幾乎所有的深度學習模型，原理是通過不斷地在損失函數遞減的方向上更新參數來降低損失。

　　梯度下降最簡單的用法是計算損失函數（訓練集中所有樣本的損失均值）關於模型參數的導數（又稱梯度）。

　　簡要過程如下：

　　首先隨機初始化模型參數 $\textbf w_{0}$ ，

　　然后按照 $\textbf w_{t}=\textbf w_{t-1}-\eta\frac{\partial L\left(\textbf w\right)}{\partial \textbf w_{t-1}}$ 公式來更新參數，$t$ 為迭代參數，$\eta$ 為學習率（步長）。

5.2 小批量隨機梯度下降

　　在實際的訓練中，梯度下降的方法可能非常慢，因為每一次更新參數之前，必須遍歷整個訓練集。所以，我們通常會在每次需要計算更新的時候隨機抽取一小批樣本，這種變體叫做小批量隨機梯度下降（minibatch stochastic gradient descent）。在這種方法中，我們隨機采樣若干個樣本來近似整個訓練集的損失。

　　過程如下：

　　在每次迭代中，我們首先隨機抽樣一個小批量 $\Beta$ ，它由固定數量的訓練樣本組成，

　　然后我們計算小批量的平均損失關於模型參數的導數（梯度）， $\left|\Beta\right|$ 為批量大小（batch size），並乘上一個學習率（learning rate） $\eta$ ，從當前參數值中減去：

$$\textbf w\leftarrow \textbf w - \frac{\eta}{\left|\Beta\right|}\sum_{i\in\Beta}\frac{\partial l^{\left(i\right)}\left(\textbf w\right)}{\partial \textbf w}$$

　　對於線性回歸的參數 $\textbf w$ 和 $b$ ，可以明確地寫成如下形式：

$$\textbf w \leftarrow \textbf w - \frac {\eta} {\left|\Beta\right|}\sum_{i\in\Beta}\frac{\partial l^{\left(i\right)}\left(\textbf w,b\right)}{\partial \textbf w} = \textbf w - \frac{\eta}{\left| \Beta \right|} \sum_{i \in \Beta} \textbf x^{\left(i\right)} \left( \textbf w^{T} \textbf x^{\left(i\right)} + b - y^{\left(i\right)} \right)$$

$$b \leftarrow b - \frac {\eta} {\left|\Beta\right|}\sum_{i\in\Beta}\frac{\partial l^{\left(i\right)}\left(\textbf w,b\right)}{\partial b} = b - \frac{\eta}{\left| \Beta \right|} \sum_{i \in \Beta} \left( \textbf w^{T} \textbf x^{\left(i\right)} + b - y^{\left(i\right)} \right)$$

本文為學習筆記，學習內容來自李沐 https://zh-v2.d2l.ai/

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 深度學習面試題04：隨機梯度下降法、批量梯度下降法、小批量梯度下降隨機梯度下降優化算法-----批量梯度下降，隨機梯度下降，小批量梯度下降梯度下降法、隨機梯度下降法、小批量梯度下降法 python實現批量梯度，隨機梯度下降以及小批量梯度下降批量梯度下降(BGD)、隨機梯度下降(SGD)以及小批量梯度下降(MBGD)的理解批量梯度下降(BGD)、隨機梯度下降(SGD)以及小批量梯度下降(MBGD)的理解線性回歸、梯度下降（Linear Regression、Gradient Descent）線性回歸的損失函數和梯度下降線性回歸（Linear Regression）的理解及原理線性回歸 Linear Regression