前言:大數據和人工智能相信大家都知道,這是未來的趨勢,作為一枚程序員居安思危,業務代碼什么的都是浮雲,數據分析了解
一波。讓我們揭開大數據分析的神秘面紗。
大數據分析其實在實際生活中很常見,京東淘寶智能推薦系統就是其中的代表,通過收集用戶行為,分析用戶行為,處理用戶行為數
據,建立用戶行為模型,智能推薦商品。這就是數據分析。
數據分析挖掘第一步:明確目標
從上面京東天貓商品推薦系統上,我們也大致知道了數據分析的流程,同時也可以了解到前面的一系列動作,最終就是為了合理的推
薦商品。也就是說數據分析都是帶有目的性的,所以數據分析並不是隨便分析,首先需要明確數據分析的目的,比如我數據分析的目的就
為了知道股票行情,知道哪只股票會漲,然后自己賺點小錢錢,ok,我們的目的很明確了。
數據分析挖掘第二步:數據獲取
有了挖掘目標之后,就需要收集數據了,畢竟是數據分析,沒有數據還分析啥。所以明確挖掘目標之后就需要收集數據,像之前我們
的目標是分析股票行情,所以我們下一步就是收集和股票行情相關的數據,這個數據沒有人給我們,所以我們需要自立更生,網絡上最不
缺的就是數據,而我們就是在海量數據中淘金的人,寫個爬蟲,各大應用商店APP下載量及評論數據,是我們噠了,再寫個爬蟲大眾點評的
資訊數據,也是我們噠了,總之爬蟲是獲取網絡數據的重要方式,get一波。瞄准各個行業的數據,擼個爬蟲,啥數據都有了。還有些情況
是不用寫爬蟲的,比如有些連鎖店也想搞數據分析,畢竟大型連鎖店想更合理的發展離不開大數據分析,分析哪款產品好賣,就能提升銷
售額了,像這種大型連鎖店的數據一般都有自己的管理工具管理,我們只需要從數據庫里面抽取就可以了。kettle了解下。
數據分析挖掘第三步:數據探索
獲取了數據就等於走上了人生巔峰,准備迎娶白富美了,不,醒醒!!海量的數據只是貧瘠的沙漠,你不知道下面埋葬的是黃金還是
沙子,獲取數據只是走出了人生巔峰的第一步。我們從網絡上獲取的數據都是混亂無序的,我們不知道這些數據之間有何關聯,而數據探
索就是分析數據結構和規律過程,沙漠里淘金的關鍵一步。
看到這里可能就比較懵了,沙漠淘金談何容易,用雙手挖是不可能用雙手挖的。同樣數據探索也不可能靠人力去探索,人之所以是人
就是擅長使用工具,而數據探索也是有工具可用,有方向可循的,漫無目的的尋找不可能到達目的地。在數據探索方面也有2個方向:數
據質量分析(缺失值分析,異常值分析,一致性分析)、數據特征分析(分布分析,對比分析,統計量分析,周期性分析,貢獻度分析,
相關性分析),掌握相關工具數據探索就變得很容易噠。
數據分析挖掘第四步:數據處理
數據探索是給我們指引方向,告訴我們沙漠哪個地方可能有黃金,屬於有依據的猜測,就是告訴你“那里可能有黃金,去找吧”,但
是這個范圍還是很大,畢竟數據探索只是指個方向,指定范圍,不讓我們埋頭亂竄。所以我們要想挖到黃金還是得再次縮小范圍,而數據
處理就能幫我們縮小范圍,數據處理包括:數據清洗(缺失值處理、異常值處理)、數據集成(實體識別、冗余屬性識別)、數據變換(
簡單函數變換,規范化,連續屬性離散化,屬性構造,小波變換)、數據規約(屬性規約、數值規約)。數據處理的目的在於提高數據的
質量,使數據更易於建模。
數據分析挖掘第五步:數據建模
萬事具備,只差東風。現在你離迎娶白富美只差一個數據建模了,不論是數據探索還是數據處理都是為了數據建模,也就是離黃金的
最后一鏟子,當然一鏟子下去也有可能是沙子,畢竟我們的分析方向,挖掘方向也是有可能有誤差的。建模說的神秘,其實模型的本質就
是一個函數,或者說是一個公式,我們通過大量數據推演出的公式,這個公式通過輸入得到我們想要的輸出。比如我們把后續爬取的股票
行情相關的信息輸入公式,得到哪只股票會漲,哪只股票會跌。而這個公式都是通過前面大量的數據分析總結出來的。而推演公式的方法
,或者說建模的方法包括:分類與預測(分類算法,預測算法,回歸分析,決策樹,人工神經網絡)、聚類分析、關聯規則、時系模式、離
群點檢測。
就像不同地形判斷是否有黃金一樣,不同的數據和場景,我們需要選擇不同的建模方式來達到我們的目的。比如我想給股票分類,分
哪些股票容易漲,哪些容易跌可以使用分類算法(分類算法的的具體原理我們悄悄討論)。還有預測算法,通過某個現象(變量)會導致
其他現象(因變量)的發生。然后構建公式,輸入變量得到因變量的結果。比如輸入某公司管理層出現問題的某些問題,預測這個公司的
股票漲跌等等。
數據分析挖掘第六步:模型評價
就像前面說的,建模是挖掘黃金的最后一鏟子,但是鏟下去得到的是黃金還是沙子我們是不清楚的,但是我們可以通過一些手段來提
高是黃金的幾率,而提高幾率的過程就是模型評價。通過模型測試提高模型的准確率。
總結:干貨是不可能有干貨的,我們的主題就是了解數據分析流程噠,干貨在哪,期待后續未知的更新,喵喵喵!!!