缺失值填充是數據預處理最基本的步驟,一般能想到的是固定值填充(均值等統計學方法)、根據與本列有相關關系的列函數表示來填充。這次我用的是em算法進行填充,具體原理后續補充。
主要記錄一下步驟:
工具欄:分析 菜單 ----> 缺失值分析------>彈出來的對話框:左邊是表格中的變量;中間對應定量變量和分類變量。如果要填充的是
連續值,則將要填充的列名通過點擊向右的箭頭將該列名放入‘定量變量’框中,可以同時把所有要填充的列名都放進去;如果要填充的是分類值,則同樣的方法,通過箭頭放入‘分類變量’中。(所謂連續值:比如 身高;分類值:比如性別)-------->我們要通過EM算法計算填充值,選中最右邊的EM復選框-------->點擊確定按鈕
這個時候有兩種顯示填充好結果的效果的方式:
1.點擊確定后,在工具欄 點擊 轉換 菜單------>替換缺失值------->將要替換的所有列名同時選中-----------》通過向右箭頭將他們放入'新變量'列表-----------》點擊確定即可看到原來打開的數據表新增了要填充的那些列,並且已經填充好值。我們可以另存。
2.在剛才的界面,沒有點擊確定前,我們點擊EM按鈕(不是復選框),將‘報存完成的數據’、‘創建新數據集’復選框選中,在‘數據集名稱’輸入框中輸入要保存的文件名。---------->點擊 繼續 按鈕--------------》確定 按鈕
這個時候,spss會新生成一個顯示數據的新窗口,我們可以看到,只有被填充數據的那些列。也可以另存。
https://bbs.pinggu.org/forum.php?mod=viewthread&tid=6639036&page=1 這個鏈接總結的也挺好的