數據分析算法---線性回歸(初識)


 

        最近在學習數據分析線性回歸算法時,產生了很多疑問。作為初學者,我認為應該先從基本概念上進行一些深度理解。下面將我的一些思考總結如下:

        線性回歸模型為: (1)

        其中ε是剩余誤差,假設它服從的是高斯分布,然后因此就將線性回歸模型和高斯模型聯合起來,獲取公式如下:

        

         到這里我是完全沒看懂!

         對於線性回歸我有4個疑問:

         第一:看到的諸多線性回歸、邏輯回歸什么的,回歸到底是什么意思?

         第二:這個ε剩余誤差又有什么樣的意義?

         第三:為什么剩余誤差服從高斯分布(即正態分布),整個線性回歸模型就能寫成高斯分布模型?

         第四:這里的線性到底指的是什么?

         接下來,我將針對這四個問題談一談自己的理解。

        1. 回歸指的是什么意思?

         回歸,即將現有的數據向假設的模型擬合接近,還原真實的數據模式。

        2. 如何理解ε剩余誤差?

        這里不妨把(1)式進行合適的轉換: (2)

        這樣就更容易理解,也就是我們只簡單地用線性模型來擬合真是的變量間的關系,並不能達到完美的解釋。所以,ε就彌補了用模型難以解釋的那一部分,即模型外的未知因素的影響。

       3. 為什么剩余誤差符合高斯分布,整個線性模型就符合高斯分布?

       看公式(2)應該可以較容易理解,這是純粹的數學知識。

       4. 這里的線性到底指的是什么?

       關於線性模型中的線性有三種說法:

       (1)變量和參數都是線性的;

       (2)變量是線性的,但參數不是線性的;

       (3)參數是線性的,但變量不是線性的。

       而我們這里所說的線性模型主要是針對(3)而言的。所以只要參數是線性的這類問題,我們對變量無論是轉成指數、冪指數等任意一種函數形式,都可以用線性模型來解決問題,因為我們要學習的是這個參數向量,而變量值是確定的。

       

 

 

 

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM