最近,大數據風靡一時,也成為我們碼農熱捧的技術。大家瘋狂的搭配hadoop環境,翻看各種hadoop技術的書,瀏覽hadoop、hive、storm等技術。過了一段時間,當我們想用這些技術對數據練習的時候。面對從網上下來了測試數據,要么束手無策,要么不管三七二十一就來一個統計回歸模型。
我們對大數據以及大數據分析完全沒有頭緒,我們甚至對大數據技術產生了迷茫,產生了退縮。
當我們拿到數據應該怎么做呢,如果不知道怎么做,那就先進行探索性分析吧。
分析數據可以分為探索和驗證兩個階段。探索性數據分析(Exploratory Data Analysis,以下簡稱EDA),是指對已有的數據(特別是調查或觀察得來的原始數據)在盡量少的先驗假定下進行探索。特別是當我們對這些數據中的信息沒有足夠的經驗,不知道該用何種傳統統計方法進行分析時,探索性數據分析就會非常有效。
探索性分析一般表現為直方圖和莖葉圖。探索性數據分析的基本工具是圖、制表和匯總統計量。一般來說,探索性數據分析是一種系統性分析數據的方法,它展示了所有變量的分布情況、時間序列數據和變換變量,利用散列矩陣圖展示了變量兩兩之間的關系,並且得到了所有的匯總統計量。換句話說,就是要計算均值、最大值、最小值、上下四分位數和確定異常值。
說了那么多,那就來個例子吧。並給出R語言和spss實現。
附件的數據共有5列,分別為:年齡、性別、廣告次數、點擊次數和是否登錄。
R語言的實現:

1 root="F:/dds_datasets/dds_ch2_nyt/" 2 setwd(root) 3 file<-paste(root,"nyt1.csv",sep="") 4 nytdata<-read.csv(file) 5 head(nytdata) 6 nytdata$agecat<-cut(nytdata$Age,c(-Inf,0,18,24,34,44,54,64,Inf)) 7 summary(nytdata) 8 9 install.packages("doBy") 10 library("doBy") 11 siterange<-function(x){c(length(x),min(x),mean(x),max(x))} 12 summaryBy(Age~agecat,data=nytdata,FUN=siterange) 13 summaryBy(Gender+Signed_In+Impressions+Clicks~agecat,data = nytdata) 14 ##先畫出直方圖圖 15 16 install.packages("ggplot2") 17 library("ggplot2") 18 19 ggplot(nytdata,aes(x=Impressions,fill=agecat))+geom_histogram() 20 #ggplot(nytdata,aes(x=Impressions,y=agecat,fill=agecat))+geom_area()
分析結果如下:
spss實現比較簡單,通過向導導入數據,選擇 分析-數據描述-探索就行了。
我也是碼農中的一員,大數據對我來講我也是初學者,前段時間開始學習R語言,感興趣的同仁可以進來互相交流。
不知道在哪可以傳附件,暈了。。。。。。。有需要數據的請聯系我。