查找缺失值
cha[*]和num[*]是建立數組cha和num,但不指定數組中的元素數
自動變量_character_表示數據集中的所有字符型變量
自動變量_numeric_表示數據集中的所有數值型變量
_all_表示數據集中的所有變量
if和where的區別
where運行的速度要快一些,因為它是在數據讀入之前就執行選擇條件,而if是在數據讀入之后才執行。但只有在數據量很大的時候才能感覺出來,正常幾百幾千個數據幾乎感覺不到
只能用if的場合
使用自動變量時,只能用if,不能用where
如果指定的條件變量是新產生的變量,只能用if,不能用where
只能用where的場合
當使用某些特殊運算符時,只能用where,不能用if
當調用某一proc過程時,如果要選擇部分觀測執行該過程,只能用where,不能用if
查找異常值
缺失值的填補
之前筆記1介紹過缺失值的單一插補法,這里介紹下缺失值的多重填補(multiple imputation)
可以看到,sas默認產生5個填補完整的數據集,每個數據集的填補值都不同。我們可以取這5次填補的平均值作為最終的填補值