啞變量詳解

本文轉載自查看原文 2019-06-26 11:11 3122 機器學習

1、啞變量定義

啞變量（DummyVariable），也叫虛擬變量，引入啞變量的目的是，將不能夠定量處理的變量量化，在線性回歸分析中引入啞變量的目的是，可以考察定性因素對因變量的影響，

它是人為虛設的變量，通常取值為0或1，來反映某個變量的不同屬性。對於有n個分類屬性的自變量，通常需要選取1個分類作為參照，因此可以產生n-1個啞變量。

如職業、性別對收入的影響，戰爭、自然災害對GDP的影響，季節對某些產品（如冷飲）銷售的影響等等。

這種“量化”通常是通過引入“啞變量”來完成的。根據這些因素的屬性類型，構造只取“0”或“1”的人工變量，通常稱為啞變量（dummyvariables），記為D。

舉一個例子，假設變量“職業”的取值分別為：工人、農民、學生、企業職員、其他，5種選項，我們可以增加4個啞變量來代替“職業”這個變量，分別為D1（1=工人/0=非工人）、D2(1=農民/0=非農民)、D3（1=學生/0=非學生）、D4(1=企業職員/0=非企業職員)，最后一個選項“其他”的信息已經包含在這4個變量中了，所以不需要再增加一個D5（1=其他/0=非其他）了。這個過程就是引入啞變量的過程，其實在結合分析（ConjointAnalysis）中，就是利用啞變量來分析各個屬性的效用值的。

此時，我們通常會將原始的多分類變量轉化為啞變量，每個啞變量只代表某兩個級別或若干個級別間的差異，通過構建回歸模型，每一個啞變量都能得出一個估計的回歸系數，從而使得回歸的結果更易於解釋，更具有實際意義。

2、什么情況下需要設置啞變量

1. 對於無序多分類變量，引入模型時需要轉化為啞變量

舉一個例子，如血型，一般分為A、B、O、AB四個類型，為無序多分類變量，通常情況下在錄入數據的時候，為了使數據量化，我們常會將其賦值為1、2、3、4。

從數字的角度來看，賦值為1、2、3、4后，它們是具有從小到大一定的順序關系的，而實際上，四種血型之間並沒有這種大小關系存在，它們之間應該是相互平等獨立的關系。如果按照1、2、3、4賦值並帶入到回歸模型中是不合理的，此時我們就需要將其轉化為啞變量。

2. 對於有序多分類變量，引入模型時需要酌情考慮

例如疾病的嚴重程度，一般分為輕、中、重度，可認為是有序多分類變量，通常情況下我們也常會將其賦值為1、2、3（等距）或1、2、4（等比）等形式，通過由小到大的數字關系，來體現疾病嚴重程度之間一定的等級關系。

但需要注意的是，一旦賦值為上述等距或等比的數值形式，這在某種程度上是認為疾病的嚴重程度也呈現類似的等距或等比的關系。而事實上由於疾病在臨床上的復雜性，不同的嚴重程度之間並非是嚴格的等距或等比關系，因此再賦值為上述形式就顯得不太合理，此時可以將其轉化為啞變量進行量化。

3. 對於連續性變量，進行變量轉化時可以考慮設定為啞變量

對於連續性變量，很多人認為可以直接將其帶入到回歸模型中即可，但有時我們還需要結合實際的臨床意義，對連續性變量作適當的轉換。例如年齡，以連續性變量帶入模型時，其解釋為年齡每增加一歲時對於因變量的影響。但往往年齡增加一歲，其效應是很微弱的，並沒有太大的實際意義。

此時，我們可以將年齡這個連續性變量進行離散化，按照10歲一個年齡段進行划分，如0-10、11-20、21-30、31-40等等，將每一組賦值為1、2、3、4，此時構建模型的回歸系數就可以解釋為年齡每增加10歲時對因變量的影響。

以上賦值方式是基於一個前提，即年齡與因變量之間存在着一定的線性關系。但有時候可能會出現以下情況，例如在年齡段較低和較高的人群中，某種疾病的死亡率較高，而在中青年人群中，死亡率卻相對較低，年齡和死亡結局之間呈現一個U字型的關系，此時再將年齡段賦值為1、2、3、4就顯得不太合理了。

因此，當我們無法確定自變量和因變量之間的變化關系，將連續性自變量離散化時，可以考慮進行啞變量轉換。

還有一種情況，例如將BMI按照臨床診斷標准分為體重過低、正常體重、超重、肥胖等幾種分類時，由於不同分類之間划分的切點是不等距的，此時賦值為1、2、3就不太符合實際情況，也可以考慮將其轉化為啞變量。

3、如何選擇啞變量的參照組

在上面的內容中我們提到，對於有n個分類的自變量，需要產生n-1個啞變量，當所有n-1個啞變量取值都為0的時候，這就是該變量的第n類屬性，即我們將這類屬性作為參照。

例如上面提到的以職業因素為例，共分為學生、農民、工人、公務員、其他共5個分類，設定了4啞變量，其中職業因素中“其它”這個屬性，每個啞變量的賦值均為0，此時我們就將“其它”這個屬性作為參照，在最后進行模型解釋時，所有類別啞變量的回歸系數，均表示該啞變量與參照相比之后對因變量的影響。

在設定啞變量時，應該選擇哪一類作為參照呢？

1. 一般情況下，可以選擇有特定意義的，或者有一定順序水平的類別作為參照

例如，婚姻狀態分為未婚、已婚、離異、喪偶等情況，可以將“未婚”作為參照；或者如學歷，分為小學、中學、大學、研究生等類別，存在着一定的順序，可以將“小學”作為參照，以便於回歸系數更容易解釋。

2. 可以選擇臨床正常水平作為參照

例如，BMI按照臨床診斷標准分為體重過低、正常體重、超重、肥胖等類別，此時可以選擇“正常體重”作為參照，其他分類都與正常體重進行比較，更具有臨床實際意義。

3. 還可以將研究者所關注的重點類別作為參照

例如血型，分為A、B、O、AB四個類型，研究者更關注O型血的人，因此可以將O型作為參照，來分析其他血型與O型相比后對於結局產生影響的差異。

4、引入啞變量的兩種方式

加法方式是指，啞變量作為單獨的自變量，有獨立的系數，從幾何意義上來講，就是只改變回歸直線的截距（constant），不改變斜率（B）；
乘法方式則正好相反，不改變截距，只改變斜率，因為啞變量在回歸方程中不是作為一個獨立的自變量，而是與其中某一個自變量相乘后作為一個自變量。
當然，也可以同時使用加法和乘法來引入啞變量，即同時改變截距和斜率。

5、性質

（1）啞變量方法只在離散型變量水平數較小時使用，一般在3個及以內。如一個人的年齡水平只有三個（青年、中年、老年）。

（2）由於啞變量的取值只有0和1，它起到的作用像是一個“開關”的作用，它可以屏蔽掉D=0的case，使之不進入分析，

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 四、啞變量處理 R語言_設置虛擬變量_啞變量線性回歸分析中的啞變量 Python學習筆記：實現啞變量編碼數據預處理與特征工程：啞變量(離散數據) 【R語言學習筆記】10. 將分類變量轉換為啞變量 4-Pandas數據預處理之數據轉換（啞變量編碼pd.get_dummies()）含有分類變量（categorical variable）的邏輯回歸（logistic regression）中虛擬變量（啞變量，dummy variable）的理解第二周：python實現線性回歸（啞變量回歸）的高效方法離散型特征編碼方式：one-hot與啞變量*