調查問卷數據分析中經常遇到對數據進行加權的問題,什么是加權?沈浩老師博客中這樣描述:讓一些人變得比另一些人更重要!那為什么要加權?為了讓調查數據在特征的分布上更接近實際情況。
比如在會員數據中,男女比例是6:4,而調查問卷的比例是7:3,為了使調查結果更貼近真實,首先需要對問卷進行加權處理,讓問卷的分布結構跟實際分布保持一致。
從概念上,加權:通過對總體中的各個樣本設置不同的數值系數(即加權因子-權重),使樣本呈現希望的相對重要性程度。通俗一些的公式:設計加權=某個變量或指標的期望比例/該變量或指標的實際比例。
有一家數碼產品專營店,它有一大批忠實的會員經常購買。為了更好的經營好自己即將要開設的網店,在會員中進行了一次購買習慣的問卷調查。在問卷的校驗過程中,他們發現回收的問卷在人口特征的分布上與實際情況不符,會員中男女比例是6:4,而問卷中是7:3,並且男女會員實際在教育水平(1、2、3、4個檔)的占比均為2:2:4:2。考慮到這兩個因素可能對分析結果有較大的影響,現在需要對問卷數據進行加權處理,使得加權后的性別和教育水平能夠符合實際比例。
匯總問卷數據,計算加權的權重
根據“權重=變量的會員比例/該變量問卷比例”來計算最終的權重(本案例用這個公式)。
熟悉excel電子表格的話,也可以利用excel的透視表功能快速對問卷數據進行匯總並計算權重,這里略過。
表格的“會員比例”即男女會員在教育水平的占比2:2:4:2,男性0.6,女性0.4。最后一列即根據公式計算而得到的“權重”。