數據分析算法---線性回歸（初識）

本文轉載自查看原文 2018-09-01 22:56 1464 Python學習筆記

最近在學習數據分析線性回歸算法時，產生了很多疑問。作為初學者，我認為應該先從基本概念上進行一些深度理解。下面將我的一些思考總結如下：

線性回歸模型為： （1）

其中ε是剩余誤差，假設它服從的是高斯分布，然后因此就將線性回歸模型和高斯模型聯合起來，獲取公式如下：

到這里我是完全沒看懂！

對於線性回歸我有4個疑問：

第一：看到的諸多線性回歸、邏輯回歸什么的，回歸到底是什么意思？

第二：這個ε剩余誤差又有什么樣的意義？

第三：為什么剩余誤差服從高斯分布（即正態分布），整個線性回歸模型就能寫成高斯分布模型？

第四：這里的線性到底指的是什么？

接下來，我將針對這四個問題談一談自己的理解。

1. 回歸指的是什么意思？

回歸，即將現有的數據向假設的模型擬合接近，還原真實的數據模式。

2. 如何理解ε剩余誤差？

這里不妨把（1）式進行合適的轉換： （2）

這樣就更容易理解，也就是我們只簡單地用線性模型來擬合真是的變量間的關系，並不能達到完美的解釋。所以，ε就彌補了用模型難以解釋的那一部分，即模型外的未知因素的影響。

3. 為什么剩余誤差符合高斯分布，整個線性模型就符合高斯分布？

看公式（2）應該可以較容易理解，這是純粹的數學知識。

4. 這里的線性到底指的是什么？

關於線性模型中的線性有三種說法：

（1）變量和參數都是線性的；

（2）變量是線性的，但參數不是線性的；

（3）參數是線性的，但變量不是線性的。

而我們這里所說的線性模型主要是針對（3）而言的。所以只要參數是線性的這類問題，我們對變量無論是轉成指數、冪指數等任意一種函數形式，都可以用線性模型來解決問題，因為我們要學習的是這個參數向量，而變量值是確定的。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python數據分析之雙色球基於線性回歸算法預測 $用python玩點有趣的數據分析——一元線性回歸分析實例初識人工智能(一):數據分析(四):pandas數據分析 R數據分析：變量間的非線性關系，多項式，樣條回歸和可加模型 # 數據分析常用算法為什么要數據分析？數據分析數據分析滴滴算法大賽算法解決過程 - 數據分析嚴小樣兒教你做數據分析（1）——Excel做一元線性回歸預測和相關系數計算