大數據分析(一)探索性分析


  最近,大數據風靡一時,也成為我們碼農熱捧的技術。大家瘋狂的搭配hadoop環境,翻看各種hadoop技術的書,瀏覽hadoophivestorm等技術。過了一段時間,當我們想用這些技術對數據練習的時候。面對從網上下來了測試數據,要么束手無策,要么不管三七二十一就來一個統計回歸模型。

  我們對大數據以及大數據分析完全沒有頭緒,我們甚至對大數據技術產生了迷茫,產生了退縮。

  當我們拿到數據應該怎么做呢,如果不知道怎么做,那就先進行探索性分析吧。

  分析數據可以分為探索和驗證兩個階段。探索性數據分析(Exploratory Data Analysis,以下簡稱EDA),是指對已有的數據(特別是調查或觀察得來的原始數據)在盡量少的先驗假定下進行探索。特別是當我們對這些數據中的信息沒有足夠的經驗,不知道該用何種傳統統計方法進行分析時,探索性數據分析就會非常有效。

  探索性分析一般表現為直方圖和莖葉圖。探索性數據分析的基本工具是圖、制表和匯總統計量。一般來說,探索性數據分析是一種系統性分析數據的方法,它展示了所有變量的分布情況、時間序列數據和變換變量,利用散列矩陣圖展示了變量兩兩之間的關系,並且得到了所有的匯總統計量。換句話說,就是要計算均值、最大值、最小值、上下四分位數和確定異常值。

  說了那么多,那就來個例子吧。並給出R語言和spss實現。

     附件的數據共有5列,分別為:年齡、性別、廣告次數、點擊次數和是否登錄。

R語言的實現:

 1 root="F:/dds_datasets/dds_ch2_nyt/"
 2 setwd(root)
 3 file<-paste(root,"nyt1.csv",sep="")
 4 nytdata<-read.csv(file)
 5 head(nytdata)
 6 nytdata$agecat<-cut(nytdata$Age,c(-Inf,0,18,24,34,44,54,64,Inf))
 7 summary(nytdata)
 8 
 9 install.packages("doBy")
10 library("doBy")
11 siterange<-function(x){c(length(x),min(x),mean(x),max(x))}
12 summaryBy(Age~agecat,data=nytdata,FUN=siterange)
13 summaryBy(Gender+Signed_In+Impressions+Clicks~agecat,data = nytdata)
14 ##先畫出直方圖圖
15 
16 install.packages("ggplot2")
17 library("ggplot2")
18 
19 ggplot(nytdata,aes(x=Impressions,fill=agecat))+geom_histogram()
20 #ggplot(nytdata,aes(x=Impressions,y=agecat,fill=agecat))+geom_area()
View Code

 分析結果如下:

spss實現比較簡單,通過向導導入數據,選擇 分析-數據描述-探索就行了。

我也是碼農中的一員,大數據對我來講我也是初學者,前段時間開始學習R語言,感興趣的同仁可以進來互相交流。

 不知道在哪可以傳附件,暈了。。。。。。。有需要數據的請聯系我。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM