最近在學習數據分析線性回歸算法時,產生了很多疑問。作為初學者,我認為應該先從基本概念上進行一些深度理解。下面將我的一些思考總結如下:
線性回歸模型為: (1)
其中ε是剩余誤差,假設它服從的是高斯分布,然后因此就將線性回歸模型和高斯模型聯合起來,獲取公式如下:
到這里我是完全沒看懂!
對於線性回歸我有4個疑問:
第一:看到的諸多線性回歸、邏輯回歸什么的,回歸到底是什么意思?
第二:這個ε剩余誤差又有什么樣的意義?
第三:為什么剩余誤差服從高斯分布(即正態分布),整個線性回歸模型就能寫成高斯分布模型?
第四:這里的線性到底指的是什么?
接下來,我將針對這四個問題談一談自己的理解。
1. 回歸指的是什么意思?
回歸,即將現有的數據向假設的模型擬合接近,還原真實的數據模式。
2. 如何理解ε剩余誤差?
這里不妨把(1)式進行合適的轉換: (2)
這樣就更容易理解,也就是我們只簡單地用線性模型來擬合真是的變量間的關系,並不能達到完美的解釋。所以,ε就彌補了用模型難以解釋的那一部分,即模型外的未知因素的影響。
3. 為什么剩余誤差符合高斯分布,整個線性模型就符合高斯分布?
看公式(2)應該可以較容易理解,這是純粹的數學知識。
4. 這里的線性到底指的是什么?
關於線性模型中的線性有三種說法:
(1)變量和參數都是線性的;
(2)變量是線性的,但參數不是線性的;
(3)參數是線性的,但變量不是線性的。
而我們這里所說的線性模型主要是針對(3)而言的。所以只要參數是線性的這類問題,我們對變量無論是轉成指數、冪指數等任意一種函數形式,都可以用線性模型來解決問題,因為我們要學習的是這個參數向量,而變量值是確定的。