數據預處理
1、數據審核:檢查數據中是否有錯誤
原始數據->完整性:所調查的對象是否有遺漏。
准確性:數據是否有錯誤、存在異常值
->異常值 :記錄錯誤,予以糾正;正確地值,予以保留。
二手數據->適用性:明確數據的來源、口徑、背景材料,以便確定數據是否符合分析研究的需要。
時效性:對於時效性較強的問題,如果數據是滯后的對於研究就沒有多大的意義。
2、數據篩選
工具:excel、spss,網上資料很多,這里不再贅述。
3、數據排序
1)按一定順序排序,以便發現明顯的特征或趨勢;
2)利於數據的糾錯、重新歸類、分組。
品質數據的整理與展示
預處理后的數據,需進一步做分類、分組。
品質數據:分類數據、順序數據
1、分類數據的整理與圖示
分類數據:對事物的一種分類
整理:列出所分的類別,計算出每一類別的頻數、頻率或比例、比率,制作頻數分布表。
目的:對數據及其特征進行初步地了解
工具:excel、spss前期的數據分析,這些工具已經很智能了!
圖示:條形圖、帕累托圖、餅圖、環形圖
2、順序數據的整理與圖示
順序數據:【轉至百度百科】
整理:列出所分的類別,計算出每一類別的頻數、頻率或比例、比率,制作頻數分布表;還可計算累計頻率(或頻數)
目的:對數據及其特征進行初步地了解
工具:excel、spss前期的數據分析,這些工具已經很智能了!
圖示:條形圖、帕累托圖、餅圖、環形圖、累計頻數分布圖或頻率圖。
數值數據的整理與展示
數值型的數據除了可以用品質數據的整理和圖示方法外,還有一些特殊的方法。
1、數據的分組:觀察數據的分布特征
單變量值分組:適用於離散變量,其變量值較少。
組距分組:適用於連續性型變量,其變量值較多。
ex:分組方法及其制表過程
step1:確定組數。組數的確定主要是用於數據特征的觀測,因此具體需視其數據特征而定。
step2:確定各組的組距。組距=組的上限-組的下限。組距的確定:(全部數據的上限-全部數據的下限)/組數
step3:根據分組整理成頻數分布表。
2、數值型數據的圖示
分組數據:直方圖
未分組數據:莖葉圖、箱線圖
莖葉圖:反映原始數據分布形狀、離散狀況(是否對稱、集中、存在離群點)
工具:excel、spss都很方便
箱線圖:由一組數據的的最大值、最小值、中位數、兩個四分位數
多變量數據的圖示:散點圖、氣泡圖、雷達圖
散點圖:2個變量之間的關系的刻畫
氣泡圖:3個變量之間的關系的刻畫
雷達圖:多個變量之間的關系的刻畫
