雖然線性回歸能夠滿足大部分的數據分析的要求,但是,線性回歸並不是對所有的問題都適用, 因為有時候自變量和因變量是通過一個已知或未知的非線性函數關系相聯系的,如果通過函數轉換,將關系轉換成線性關系,可能會造成數據失真或更為復雜的計算,導致結果出現偏差
回歸分析中,變量轉換的方法,如下所示:
舉例說明一下公式的轉換過程:冪函數: 我們將兩邊取對手 (以自然數e 為底的對數)得到
Y'=Iny x'=Inx 將Y'和X‘分別代入方程得到:Y'=In=Ina + In
= Ina + βInx = Ina + βX' 此公式分解是請參考:對數的運算性質
此時,我們一般會采用“曲線評估”來尋找一個簡單而又適合的模型。
今天還是以教學案例數據為例:廣告支付和銷售量之間的關系,數據如下所示:
點擊“分析”—回歸——曲線評估,進入如下所示的界面:
將“銷售量”作為因變量,“廣告費用”作為自變量分別拖入“因變量”和“自變量”框內,選擇“線性”和“二次項”兩個模型,同時勾選“包含常量”和“模型繪圖”兩個選項
接着,點擊“保存”按鈕,進入如下界面:
點擊繼續,返回原來界面,再點擊”確定“按鈕,得到如下分析結果:
結果分析:
1:在“模型描述”中可以看出:
因變量為“銷售量”,自變量為:廣告費用,並且具備兩個方程:方程1為線性方程,方程2為:二次曲線方程
包含:常數項等信息
2:從“個案處理摘要”可以看出,排除的個案為0,說明變量中所有的個案都不帶有“缺失值”,個案總數為24個
3:從“模型匯總和參數歸集值”表中,可以看出:
“二次曲線模型的擬合度”高於“線性模型擬合度”(0.908 > 0.839),F統計量的顯著值都等於0.00,遠遠小於0.01,說明兩個模型都顯著,並且都具備常數項,分別為:6.584和3.903, 參數估計值:線性具備一個參數估計值,而二次曲線具備兩個參數估計值,一個為正,一個為負
線性方程為:銷售量 = 6.584 + 1.071* 廣告費用
二次曲線方程為: 銷售量 = 3.903 + 2.854 * 廣告費用 — 0.245 * 廣告費用²
我們可以看出,隨着廣告費用的增加,銷售量也會逐漸增加,根據二次曲線模型得出,當廣告費用增加到一定數額時候,銷售量不會隨着增加,相比之下,會呈現下降趨勢 (這個就是為什么會出現兩個參數估計值為一正,一負的情況了)
那么,我們如何計算:投入與產出最大化呢?即指:當廣告費用投放達到多少時,銷售量將不會再增加,即指:轉折點
轉折點 = 2.854/2*0.245 = 5.824
我們來分析一下,這個轉折點的推理過程! 其實轉折點,就是所謂的極限,簡單來說,可以理解為求導數
1:y=β0 + β1x + β2x² 對y進行求導運算得出: y'=β1+2β2x :
2:因為隨着廣告費用的增加,銷售量也會隨着改變,所以求增量: Δy=( β1 + 2β2x) Δx
3:求比值:Δy/Δx=β1 + 2β2x
4:求極限:β1 + 2β2x =0 得出 x =| -β1/2β2 | (這里取絕對值)= 2.854/2*0.245 = 5.824
4:從“銷售量”的圖表中可以看出:二次曲線更好的反應了,隨着廣告費用的增加,銷售量的變化情況,而線性模型,卻一直呈現增加的趨勢