大數據分析(一)探索性分析

本文轉載自查看原文 2015-12-30 02:31 5904 算法/ R/ EDA/ 探索性分析

　　最近，大數據風靡一時，也成為我們碼農熱捧的技術。大家瘋狂的搭配hadoop環境，翻看各種hadoop技術的書，瀏覽hadoop、hive、storm等技術。過了一段時間，當我們想用這些技術對數據練習的時候。面對從網上下來了測試數據，要么束手無策，要么不管三七二十一就來一個統計回歸模型。

　　我們對大數據以及大數據分析完全沒有頭緒，我們甚至對大數據技術產生了迷茫，產生了退縮。

　　當我們拿到數據應該怎么做呢，如果不知道怎么做，那就先進行探索性分析吧。

　　分析數據可以分為探索和驗證兩個階段。探索性數據分析（Exploratory Data Analysis，以下簡稱EDA），是指對已有的數據(特別是調查或觀察得來的原始數據)在盡量少的先驗假定下進行探索。特別是當我們對這些數據中的信息沒有足夠的經驗，不知道該用何種傳統統計方法進行分析時，探索性數據分析就會非常有效。

　　探索性分析一般表現為直方圖和莖葉圖。探索性數據分析的基本工具是圖、制表和匯總統計量。一般來說，探索性數據分析是一種系統性分析數據的方法，它展示了所有變量的分布情況、時間序列數據和變換變量，利用散列矩陣圖展示了變量兩兩之間的關系，並且得到了所有的匯總統計量。換句話說，就是要計算均值、最大值、最小值、上下四分位數和確定異常值。

　　說了那么多，那就來個例子吧。並給出R語言和spss實現。

附件的數據共有5列，分別為：年齡、性別、廣告次數、點擊次數和是否登錄。

R語言的實現：

 1 root="F:/dds_datasets/dds_ch2_nyt/"
 2 setwd(root)
 3 file<-paste(root,"nyt1.csv",sep="")
 4 nytdata<-read.csv(file)
 5 head(nytdata)
 6 nytdata$agecat<-cut(nytdata$Age,c(-Inf,0,18,24,34,44,54,64,Inf))
 7 summary(nytdata)
 8 
 9 install.packages("doBy")
10 library("doBy")
11 siterange<-function(x){c(length(x),min(x),mean(x),max(x))}
12 summaryBy(Age~agecat,data=nytdata,FUN=siterange)
13 summaryBy(Gender+Signed_In+Impressions+Clicks~agecat,data = nytdata)
14 ##先畫出直方圖圖
15 
16 install.packages("ggplot2")
17 library("ggplot2")
18 
19 ggplot(nytdata,aes(x=Impressions,fill=agecat))+geom_histogram()
20 #ggplot(nytdata,aes(x=Impressions,y=agecat,fill=agecat))+geom_area()

View Code

分析結果如下：

spss實現比較簡單，通過向導導入數據，選擇分析-數據描述-探索就行了。

我也是碼農中的一員，大數據對我來講我也是初學者，前段時間開始學習R語言，感興趣的同仁可以進來互相交流。

不知道在哪可以傳附件，暈了。。。。。。。有需要數據的請聯系我。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 [譯]探索性數據分析綜述數據探索性分析案例實現（EDA）之鑽石數據分析第4章探索性數據分析（多因子與復合分析）插值和空間分析（一）_探索性數據分析（R語言）探索性數據分析 EDA 摘自數據科學實戰 1.探索性數據分析（EDA，Exploratory Data Analysis）數據探索性分析（EDA）大數據分析與挖掘關於“華為”的大數據分析大數據分析案例