本文來自網易雲社區。
百科是這樣定義數據挖掘和數據分析的。
數據分析:是指用適當的統計分析方法對收集來的大量數據進行分析,提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。這一過程也是質量管理體系的支持過程。在實用中,數據分析可幫助人們作出判斷,以便采取適當行動。數據分析的數學基礎在20世紀早期就已確立,但直到計算機的出現才使得實際操作成為可能,並使得數據分析得以推廣。數據分析是數學與計算機科學相結合的產物。
數據挖掘:又譯為資料探勘、數據采礦。它是數據庫知識發現中的一個步驟。數據挖掘一般是指從大量的數據中通過算法搜索隱藏於其中信息的過程。數據挖掘通常與計算機科學有關,並通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。
更詳細的將兩者進行區分的話,可以從下面幾個方面進行理解:
數據分析可以分為廣義的數據分析和狹義的數據分析。廣義的數據分析就包括狹義的數據分析和數據挖掘,我們常說的數據分析就是指狹義的數據分析。
數據分析(狹義):
(1)定義:簡單來說,數據分析就是對數據進行分析。專業的說法,數據分析是指根據分析目的,用適當的統計分析方法及工具,對收集來的數據進行處理與分析,提取有價值的信息,發揮數據的作用。
(2)作用:它主要實現三大作用:現狀分析、原因分析、預測分析(定量)。數據分析的目標明確,先做假設,然后通過數據分析來驗證假設是否正確,從而得到相應的結論。
(3)方法:主要采用對比分析、分組分析、交叉分析、回歸分析等常用分析方法。
(4)結果:數據分析一般都是得到一個指標統計量結果,如總和、平均值等,這些指標數據都需要與業務結合進行解讀,才能發揮出數據的價值與作用。
數據挖掘:
(1)定義:數據挖掘是指從大量的數據中,通過統計學、人工智能、機器學習等方法,挖掘出未知的、且有價值的信息和知識的過程。
(2)作用:數據挖掘主要側重解決四類問題:分類、聚類、關聯和預測(定量、定性),數據挖掘的重點在尋找未知的模式與規律;如我們常說的數據挖掘案例:啤酒與尿布、安全套與巧克力等,這就是事先未知的,但又是非常有價值的信息。
(3)方法:主要采用決策樹、神經網絡、關聯規則、聚類分析等統計學、人工智能、機器學習等方法進行挖掘。
(4)結果:輸出模型或規則,並且可相應得到模型得分或標簽,模型得分如流失概率值、總和得分、相似度、預測值等,標簽如高中低價值用戶、流失與非流失、信用優良中差等。
綜合起來,數據分析(狹義)與數據挖掘的本質都是一樣的,都是從數據里面發現關於業務的知識(有價值的信息),從而幫助業務運營、改進產品以及幫助企業做更好的決策,所以數據分析(狹義)與數據挖掘構成廣義的數據分析。
數據分析,是對數據的一種操作手段。或者算法。目標是針對先驗的約束,對數據進行整理、篩選、加工,由此得到信息。
數據挖掘,是對數據分析手段后的信息,進行價值化的分析。
而數據分析和數據挖掘,又是甚至是遞歸的。就是數據分析的結果是信息,這些信息作為數據,由數據去挖掘。而數據挖掘,又使用了數據分析的手段,周而復始。
數據分析和數據挖掘的最大區別在於,數據分析,是以輸入的數據為基礎,通過先驗的約束,對數據進行處理,但是不以結論何如為調整。例如你需要圖像識別,這個屬於數據分析。你要分析人臉。數據通過你的先驗的方法,就是出來個貓臉。你的數據分析也沒有問題。你需要默默的承受結果,並 且尊重事實。因此數據分析的重點在於數據的有效性、真實性和先驗約束的正確性。
而數據挖掘則不同,數據挖掘是對信息的價值化的獲取。價值化自然不考慮數據本身,而是考慮數據是否有價值。由此,一批數據,你嘗試對它做不同的價值挖掘。評估,則就是數據挖掘。此時對比數據分析,最大的特點就是,你需要調整你的不同的先驗約束,再次對數據進行分析。而先驗的約束已經不是針對數據來源自身的特點,例如信噪比處理算法。而是你期望得到的一個有價值的內容,做先驗的約束。以觀測,數據根據這個約束,是否有正確的反饋。
大數據是互聯網的海量數據挖掘,而數據挖掘更多是針對內部企業行業小眾化的數據挖掘,數據分析就是進行做出針對性的分析和診斷,大數據需要分析的是趨勢和發展,數據挖掘主要發現的是問題和診斷。
職業上,有數據分析師和數據挖掘師,這兩者的相似點可總結如下:
1、都跟數據打交道。
他們玩的都是數據,如果沒有數據或者搜集不到數據,他們都要丟飯碗。
2、知識技能有很多交叉點。
他們都需要懂統計學,懂數據分析一些常用的方法,對數據的敏感度比較好。
3、 在職業上他們沒有很明顯的界限。
很多時候數據分析師也在做挖掘方面的工作,而數據挖掘工程師也會做數據分析的工作,數據分析也有很多時候用到數據挖掘的工具和模型,很多數據分析從業者使用SAS、R就是一個很好的例子。而在做數據挖掘項目時同樣需要有人懂業務懂數據,能夠根據業務需要提出正確的數據挖掘需求和方案能夠提出備選的算法模型,實際上這樣的人一腳在數據分析上另一只腳已經在數據挖掘上了。
事實上沒有必要將數據分析和數據挖掘分的特別清,但是我們需要看到兩者的區別和聯系,作為一名數據行業的從業者,要根據自身的特長和愛好規划自己的職業生涯,以尋求自身價值的最大化。
網易猛獁大數據平台:網易大數據實踐經驗積累,一站式大數據應用開發和數據管理平台。內嵌多種數據挖掘算法/包,支持Spark機器學習等,基於業務場景設計的用戶操作界面提高了系統的易用性,結束了平台命令行運維的繁瑣狀態,數據開發工程師和數據分析師通過簡單拖拽和表單填寫即可完成數據科學相關工作。平台提供多租戶支持,不同租戶之間相互隔離,底層使用Kerberos認證,實現了數據的安全性和隔離性,除了認證系統,利用ranger實現了細粒度權限控制,保證了各個租戶之間只能查看授權訪問的庫、表或者字段,此外,平台提供審計功能,通過對用戶平台行為的記錄、分析和匯報,用來幫助事后生成合規報告、事故追根溯源,提高平台的安全性。
