數據挖掘分析流程~簡介


  前言:大數據和人工智能相信大家都知道,這是未來的趨勢,作為一枚程序員居安思危,業務代碼什么的都是浮雲,數據分析了解

一波。讓我們揭開大數據分析的神秘面紗。

  大數據分析其實在實際生活中很常見,京東淘寶智能推薦系統就是其中的代表,通過收集用戶行為,分析用戶行為,處理用戶行為數

據,建立用戶行為模型,智能推薦商品。這就是數據分析。

  數據分析挖掘第一步:明確目標

  從上面京東天貓商品推薦系統上,我們也大致知道了數據分析的流程,同時也可以了解到前面的一系列動作,最終就是為了合理的推

商品。也就是說數據分析都是帶有目的性的,所以數據分析並不是隨便分析,首先需要明確數據分析的目的,比如我數據分析的目的就

為了知道股票行情,知道哪只股票會漲,然后自己賺點小錢錢,ok,我們的目的很明確了。

  數據分析挖掘第二步:數據獲取

  有了挖掘目標之后,就需要收集數據了,畢竟是數據分析,沒有數據還分析啥。所以明確挖掘目標之后就需要收集數據,像之前我們

的目標是分析股票行情,所以我們下一步就是收集和股票行情相關的數據,這個數據沒有人給我們,所以我們需要自立更生,網絡上最不

缺的就是數據,而我們就是在海量數據中淘金的人,寫個爬蟲,各大應用商店APP下載量及評論數據,是我們噠了,再寫個爬蟲大眾點評的

資訊數據,也是我們噠了,總之爬蟲是獲取網絡數據的重要方式,get一波。瞄准各個行業的數據,擼個爬蟲,啥數據都有了。還有些情況

是不用寫爬蟲的,比如有些連鎖店也想搞數據分析,畢竟大型連鎖店想更合理的發展離不開大數據分析,分析哪款產品好賣,就能提升銷

額了,像這種大型連鎖店的數據一般都有自己的管理工具管理,我們只需要從數據庫里面抽取就可以了。kettle了解下。

  數據分析挖掘第三步:數據探索

  獲取了數據就等於走上了人生巔峰,准備迎娶白富美了,不,醒醒!!海量的數據只是貧瘠的沙漠,你不知道下面埋葬的是黃金還是

沙子,獲取數據只是走出了人生巔峰的第一步。我們從網絡上獲取的數據都是混亂無序的,我們不知道這些數據之間有何關聯,而數據探

索就是分析數據結構和規律過程,沙漠里淘金的關鍵一步。

  看到這里可能就比較懵了,沙漠淘金談何容易,用雙手挖是不可能用雙手挖的。同樣數據探索也不可能靠人力去探索,人之所以是人

就是擅長使用工具,而數據探索也是有工具可用,有方向可循的,漫無目的的尋找不可能到達目的地。在數據探索方面也有2個方向:

據質量分析(缺失值分析,異常值分析,一致性分析)、數據特征分析(分布分析,對比分析,統計量分析,周期性分析,貢獻度分析,

相關性分析),掌握相關工具數據探索就變得很容易噠。

  數據分析挖掘第四步:數據處理

  數據探索是給我們指引方向,告訴我們沙漠哪個地方可能有黃金,屬於有依據的猜測,就是告訴你“那里可能有黃金,去找吧”,但

是這個范圍還是很大,畢竟數據探索只是指個方向,指定范圍,不讓我們埋頭亂竄。所以我們要想挖到黃金還是得再次縮小范圍,而數據

處理就能幫我們縮小范圍,數據處理包括:數據清洗(缺失值處理、異常值處理)、數據集成(實體識別、冗余屬性識別)、數據變換

單函數變換,規范化,連續屬性離散化,屬性構造,小波變換)、數據規約(屬性規約、數值規約)。數據處理的目的在於提高數據的

量,使數據更易於建模。

  數據分析挖掘第五步:數據建模

   萬事具備,只差東風。現在你離迎娶白富美只差一個數據建模了,不論是數據探索還是數據處理都是為了數據建模,也就是離黃金的

最后一鏟子,當然一鏟子下去也有可能是沙子,畢竟我們的分析方向,挖掘方向也是有可能有誤差的。建模說的神秘,其實模型的本質就

一個函數,或者說是一個公式,我們通過大量數據推演出的公式,這個公式通過輸入得到我們想要的輸出。比如我們把后續爬取的股票

行情相關的信息輸入公式,得到哪只股票會漲,哪只股票會跌。而這個公式都是通過前面大量的數據分析總結出來的。而推演公式的方法

,或者說建模的方法包括:分類與預測(分類算法,預測算法,回歸分析,決策樹,人工神經網絡)、聚類分析關聯規則時系模式

點檢

  就像不同地形判斷是否有黃金一樣,不同的數據和場景,我們需要選擇不同的建模方式來達到我們的目的。比如我想給股票分類,分

哪些股票容易漲,哪些容易跌可以使用分類算法(分類算法的的具體原理我們悄悄討論)。還有預測算法,通過某個現象(變量)會導致

其他現象(因變量)的發生。然后構建公式,輸入變量得到因變量的結果。比如輸入某公司管理層出現問題的某些問題,預測這個公司的

股票漲跌等等。

  數據分析挖掘第六步:模型評價

  就像前面說的,建模是挖掘黃金的最后一鏟子,但是鏟下去得到的是黃金還是沙子我們是不清楚的,但是我們可以通過一些手段來提

高是黃金的幾率,而提高幾率的過程就是模型評價。通過模型測試提高模型的准確率。

  總結:干貨是不可能有干貨的,我們的主題就是了解數據分析流程噠,干貨在哪,期待后續未知的更新,喵喵喵!!!

  

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM