數據挖掘(data mining),機器學習(machine learning),和人工智能(AI)的區別是什么? 數據科學(data science)和商業分析(business analytics)之間有什么關系?


本來我以為不需要解釋這個問題的,到底數據挖掘(data mining),機器學習(machine learning),和人工智能(AI)有什么區別,但是前幾天因為有個學弟問我,我想了想發現我竟然也回答不出來,我在知乎和博客上查了查這個問題,發現還沒有人寫過比較詳細和有說服力的對比和解釋。那我根據以前讀的書和論文,還有和與導師之間的交流,嘗試着說一說這幾者的區別吧,畢竟一個好的定義在未來的學習和交流中能夠發揮很大的作用。同時補上數據科學和商業分析之間的關系。能力有限,如有疏漏,請包涵和指正。

導論

本文主要分為兩部分,第一部分闡述數據挖掘(data mining),機器學習(machine learning),和人工智能(AI)之間的區別。這三者的區別主要是目的不同,其手段(算法,模型)有很大的重疊,所以容易混淆。第二部分主要闡述以上的技能與數據科學(data science)的關系,以及數據科學(data science)和商業分析(business analytics)之間的關系。其實,數據科學家本身就是商業分析師在大數據時代的延伸。


數據挖掘VS. 機器學習VS. 人工智能

數據挖掘 (data mining): 有目的地從現有大數據中提取數據的模式(pattern)和模型(model)

關鍵字:模式提取,大數據

數據挖掘是從現有的信息(existing information)中提取數據的模式(pattern)和模型(model),即精選出最重要的信息,以用於未來機器學習和AI的數據使用。其核心目的是找到數據變量之間的關系。其發展出來的主要原因是大數據的發展,用傳統的數據分析的方式已經無能處理那么多大量的看似不相關的數據的處理,因此需要數據挖掘技術去提取各種數據和變量之間的相互關系,從而精煉數據。
數據挖掘本質上像是機器學習和人工智能的基礎,他的主要目的是從各種各樣的數據來源中,提取出超集(superset)的信息,然后將這些信息合並讓你發現你從來沒有想到過的模式和內在關系。這就意味着,數據挖掘不是一種用來證明假說的方法,而是用來構建各種各樣的假說的方法。數據挖掘不能告訴你這些問題的答案,他只能告訴你,A和B可能存在相關關系,但是它無法告訴你A和B存在什么相關關系。
當然,數據挖掘會使用大量機器學習的算法,但是其特定的環境和目的和機器學習不太一樣。

機器學習(machine learning): 自動地從過往的經驗中學習新的知識。

關鍵字: 自動化,自我優化,預測,需要training data,推薦系統

機器學習其實是人工智能很重要的一部分,因為目前,在實踐過程中,大多數的人工智能處理的任務,其實是用機器學習的方式完成的。機器學習可以用程序和算法自動地學習,只要被設計好了,這個程序可以進行自我優化。同時,機器學習需要一定數量的訓練數據集(training data set),用於構建來自過往經驗的“知識” 。
且機器學習目前在實踐中最重要的功能便是預測結果。比如機器學習已經學習結束了,現在有一個新的數據集x,需要預測其分類,機器學習算法會根據這個新數據與學習后的“知識”相匹配(實際上,知識指的是學習后的數學模型),然后將這個數據集x分類某類C去。再比較常見的機器學習,比如amazon的推薦系統。

人工智能(AI): 一個廣泛的概念,本質是用數據和模型去為現有的問題(existing problems)提供解決方法(solutions).

關鍵字:和人一樣處理問題,技術的合集

人工智能是一個與機器學習和數據挖掘相對不同的概念,人工智能的目的是為了去創造有智力的電腦(不知道怎么翻譯好,可以假設其為機器人)。在實踐中,我們希望這個電腦可以像有智力的人一樣處理一個任務。因此,理論上人工智能幾乎包括了所有和機器能做的內容,當然也包括了數據挖掘和機器學習的內容,同時還會有監視(monitor)和控制進程(process control)的內容。


數據科學(data science)和商業分析(business analytics)的關系?

其實以前,我們是沒有數據科學家(data scientist),和數據科學(data science)這個概念的。我們稱呼做相關內容的方式更多叫商業分析(business analytics)。

在2011年的時候,麥肯錫發表了《Big Data: the next frontier for innovation, competition, and productivity》提出了現在很多的公司已經開始往分析才能(analytical talent)中獲得競爭優勢。雖然這不是第一篇提出這個概念的公司,但是是第一次提出,數據分析能力也有助於商業公司去發現潛在的機會,而不僅僅只對技術公司有效。接着麥肯錫認為到了2018年,美國大約會有190,000的項目缺少“深度分析能力(Deep Analytical Talent)”,而這些深度分析能力,是由大數據(big data)驅動的。至此,麥肯錫將”商業分析”進一步形容為”深度分析能力”。

接着DJ Patil和Jeff Hammerbacher在其寫的《Building Data Science Teams》,將麥肯錫的“深度分析能力”稱為了“數據科學家(data scientists)”。他們在文中提到:

商業分析師(business analyst)看起來太局限了,數據分析師(data anlyst)是他們的競爭者,但是我們還是覺得這個稱呼太局限了。....我們認為最好的稱呼應該是”數據科學家(data scientist)”,因為這些人需要同時使用數據(data)和科學(science)去創造一些新的東西。

緊接着,DJ Patil加了一些關鍵特點用於去尋找一個數據科學家(data scientist):

  1. 專業技術(Technical expertise): 最好的數據科學家需要有關於某些科學學科的深度專業知識(deep expertise)。
  2. 好奇心(Curiosity): 一個優秀的數據科學家需要有挖掘潛在關系,解決問題和證明假說的強烈好奇心和渴望。
  3. 講故事的能力(Storytelling): 能用數據講一個生動的故事的能力,它能使交流更加有效。
  4. 聰明(Cleverness): 能夠創造性地解決問題的能力。

隨后,數據科學家這個概念才開始被廣為流傳。那么數據科學家需要具備哪些專業能力?不同的公司有不同的看法和意見(反正大家好像都喜歡把所有一切的期許都放在一個新興的行業中),這里列舉一個比較流行的看法:
1.Drew Conway’s Data Scientist Venn Diagram

 

2.Drew Tierney’s Multi-disciplinary Diagram

 

3.Gartner

 

最后附贈一張“作弊紙”,列出幾乎所有的商業問題(Business Problems),想要入門成為一個優秀的商業分析師,或者是數據科學家,強烈推薦保存!!!!!!!!!!!!以后有時間,我會嘗試着逐一翻譯和解說一下。

 


 

拓展閱讀(英文):

  1. 什么是獨角獸型的數據科學家?:不知道為什么現在什么“獨角獸”型的這種理念會那么流行,企業也愛叫獨角獸,行業內也愛叫獨角獸。。但為什么一提到獨角獸,我先想到的是巫師系列游戲。(捂臉~)

  2. Top 10 Data Analysis Tools for Business:用於商業分析的十大工具,強烈推薦閱讀!!!

  3. Data Science: Bridging the Business & IT Gap:第二部分內容主要來源的原文。


 

參考文獻:

  1. http://stats.stackexchange.com/questions/5026/what-is-the-difference-between-data-mining-statistics-machine-learning-and-ai
  2. http://upfrontanalytics.com/data-mining-vs-artificial-intelligence-vs-machine-learning/
  3. https://www.researchgate.net/post/What_is_the_difference_between_machine_learning_and_data_mining
  4. https://www.r-bloggers.com/whats-the-difference-between-machine-learning-statistics-and-data-mining/
  5. https://discuss.analyticsvidhya.com/t/what-is-the-difference-between-machine-learning-data-analysis-data-mining-data-science-and-ai/572
  6. http://www.kdnuggets.com/2014/06/data-science-skills-business-problems.html
  7. 各種亂七八糟的書和課件的筆記。
  8. 《Building Data Science Teams》
  9. 《Big Data: the next frontier for innovation, competition, and productivity》
  10. Drew Conway’s Data Scientist Venn Diagram
  11. Drew Tierney’s Multi-disciplinary Diagram


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM