線性回歸中經常會遇到非數值型數據,即分類型數據,比如性別、所屬省份、專業類型等等
分類型數據無法量化,一般會采用啞數據進行處理
如某個數據分為A、B、C三類,即可采用兩個啞數據a,b
類型為A時,a=1,b=0
類型為B時,a=0,b=1
類型為C時,a=0,b=0
不使用a,b,c三個啞數據,是因為如果啞數據個數與分類數相同時,恆有a+b+c=1,會存在多重共線性問題
所以在N分類時,一般使用N-1個啞數據
線性回歸中經常會遇到非數值型數據,即分類型數據,比如性別、所屬省份、專業類型等等
分類型數據無法量化,一般會采用啞數據進行處理
如某個數據分為A、B、C三類,即可采用兩個啞數據a,b
類型為A時,a=1,b=0
類型為B時,a=0,b=1
類型為C時,a=0,b=0
不使用a,b,c三個啞數據,是因為如果啞數據個數與分類數相同時,恆有a+b+c=1,會存在多重共線性問題
所以在N分類時,一般使用N-1個啞數據
本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。