數據挖掘——統計學分析(一:數據的整理與圖示表示)


數據預處理

1、數據審核:檢查數據中是否有錯誤

 原始數據->完整性:所調查的對象是否有遺漏。

                

                准確性:數據是否有錯誤、存在異常值

                         ->異常值 :記錄錯誤,予以糾正;正確地值,予以保留。

 

 二手數據->適用性:明確數據的來源、口徑、背景材料,以便確定數據是否符合分析研究的需要。

                

                時效性:對於時效性較強的問題,如果數據是滯后的對於研究就沒有多大的意義。

 

 

2、數據篩選

 工具:excel、spss,網上資料很多,這里不再贅述。

3、數據排序

1)按一定順序排序,以便發現明顯的特征或趨勢;

2)利於數據的糾錯、重新歸類、分組。


 品質數據的整理與展示

預處理后的數據,需進一步做分類、分組。

品質數據:分類數據、順序數據

1、分類數據的整理與圖示

分類數據:對事物的一種分類

整理:列出所分的類別,計算出每一類別的頻數、頻率或比例、比率,制作頻數分布表。

目的:對數據及其特征進行初步地了解

工具:excel、spss前期的數據分析,這些工具已經很智能了!

 圖示:條形圖、帕累托圖、餅圖、環形圖

2、順序數據的整理與圖示

順序數據:【轉至百度百科】

https://baike.baidu.com/item/%E9%A1%BA%E5%BA%8F%E6%95%B0%E6%8D%AE/9210375?fr=aladdin

 

整理:列出所分的類別,計算出每一類別的頻數、頻率或比例、比率,制作頻數分布表;還可計算累計頻率(或頻數)

目的:對數據及其特征進行初步地了解

工具:excel、spss前期的數據分析,這些工具已經很智能了!

 圖示:條形圖、帕累托圖、餅圖、環形圖、累計頻數分布圖或頻率圖。

數值數據的整理與展示

數值型的數據除了可以用品質數據的整理和圖示方法外,還有一些特殊的方法。

1、數據的分組:觀察數據的分布特征

單變量值分組:適用於離散變量,其變量值較少。

組距分組:適用於連續性型變量,其變量值較多。

 ex:分組方法及其制表過程

step1:確定組數。組數的確定主要是用於數據特征的觀測,因此具體需視其數據特征而定。

step2:確定各組的組距。組距=組的上限-組的下限。組距的確定:(全部數據的上限-全部數據的下限)/組數

step3:根據分組整理成頻數分布表。

2、數值型數據的圖示

分組數據:直方圖

未分組數據:莖葉圖、箱線圖

莖葉圖:反映原始數據分布形狀、離散狀況(是否對稱、集中、存在離群點)

工具:excel、spss都很方便

箱線圖:由一組數據的的最大值、最小值、中位數、兩個四分位數

 

 

 

 時間序列數據——線圖:反映隨時間變化的特征

 

 

多變量數據的圖示:散點圖、氣泡圖、雷達圖

散點圖:2個變量之間的關系的刻畫

氣泡圖:3個變量之間的關系的刻畫

雷達圖:多個變量之間的關系的刻畫

工具:excel、spss都很方便


 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM