【Machine Learning】機器學習及其基礎概念簡介


機器學習及其基礎概念簡介

作者:白寧超

2016年12月23日21:24:51

摘要:隨着機器學習和深度學習的熱潮,各種圖書層出不窮。然而多數是基礎理論知識介紹,缺乏實現的深入理解。本系列文章是作者結合視頻學習和書籍基礎的筆記所得。本系列文章將采用理論結合實踐方式編寫。首先介紹機器學習和深度學習的范疇,然后介紹關於訓練集、測試集等介紹。接着分別介紹機器學習常用算法,分別是監督學習之分類(決策樹、臨近取樣、支持向量機、神經網絡算法)監督學習之回歸(線性回歸、非線性回歸)非監督學習(K-means聚類、Hierarchical聚類)。本文采用各個算法理論知識介紹,然后結合python具體實現源碼和案例分析的方式本文原創編著,轉載注明出處:機器學習及其基礎概念簡介(2)

目錄


  1. 【Machine Learning】Python開發工具:Anaconda+Sublime(1)
  2. 【Machine Learning】機器學習及其基礎概念簡介(2)
  3. 【Machine Learning】決策樹在商品購買力能力預測案例中的算法實現(3)
  4. 【Machine Learning】KNN算法虹膜圖片識別實戰(4)

1 機器學習簡介


機器學習 (Machine Learning, ML) :
概念:多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法復雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。
學科定位:人工智能(Artificial Intelligence, AI)的核心,是使計算機具有智能的根本途徑,其應用遍及人工智能的各個領域,它主要使用歸納、綜合而不是演繹。
定義:探究和開發一系列算法來如何使計算機不需要通過外部明顯的指示,而可以自己通過數據來學習,建模,並且利用建好的模型和新的輸入來進行預測的學科。
發展
Arthur Samuel (1959): 一門不需要通過外部程序指示而讓計算機有能力自我學習的學科
Langley(1996) : “機器學習是一門人工智能的科學,該領域的主要研究對象是人工智能,特別是如何在經驗學習中改善具體算法的性能” 
Tom Michell (1997):  “機器學習是對能通過經驗自動改進的計算機算法的研究”
學習:針對經驗E (experience) 和一系列的任務 T (tasks) 和一定表現的衡量 P,如果隨之經驗E的積累,針對定義好的任務T可以提高表現P,就說計算機具有學習能力
例子: 人臉識別、無人駕駛汽車、下棋、語音識別、電商推薦系統等
應用語音識別、自動駕駛、語言翻譯、計算機視覺、推薦系統、無人機、識別垃圾郵件
機器學習就業需求: LinkedIn所有職業技能需求量第一:機器學習,數據挖掘和統計分析人才   http://blog.linkedin.com/2014/12/17/the-25-hottest-skills-that-got-people-hired-in-2014/

2 深度學習(Deep Learning)


深度學習(Deep Learning):
深度學習是基於機器學習延伸出來的一個新的領域,由以人大腦結構為啟發的神經網絡算法為起源加之模型結構深度的增加發展,並伴隨大數據和計算能力的提高而產生的一系列新的算法。

深度學習發展

其概念由著名科學家Geoffrey Hinton等人在2006年和2007年在《Sciences》等上發表的文章被提出和興起。

學習能用來干什么?為什么近年來引起如此廣泛的關注?

深度學習,作為機器學習中延伸出來的一個領域,被應用在圖像處理與計算機視覺,自然語言處理以及語音識別等領域。自2006年至今,學術界和工業界合作在深度學習方面的研究與應用在以上領域取得了突破性的進展。以ImageNet為數據庫的經典圖像中的物體識別競賽為例,擊了所有傳統算法,取得了前所未有的精確度。
深度學習目前有哪些代表性的學術機構和公司走在前沿?人才需要如何?
學校以多倫多大學,紐約大學,斯坦福大學為代表,工業界以Google, Facebook, 和百度為代表走在深度學習研究與應用的前沿。Google挖走了Hinton,Facebook挖走了LeCun,百度硅谷的實驗室挖走了Andrew Ng,Google去年4月份以超過5億美金收購了專門研究深度學習的初創公司DeepMind, 深度學習方因技術的發展與人才的稀有造成的人才搶奪戰達到了前所未有激烈的程度。諸多的大大小小(如阿里巴巴,雅虎)等公司也都在跟進,開始涉足深度學習領域,深度學習人才需求量會持續快速增長。
深度學習如今和未來將對我們生活造成怎樣的影響?
目前我們使用的Android手機中google的語音識別,百度識圖,google的圖片搜索,都已經使用到了深度學習技術。Facebook在去年名為DeepFace的項目中對人臉識別的准備率第一次接近人類肉眼(97.25% vs 97.5%)。大數據時代,結合深度學習的發展在未來對我們生活的影響無法估量。保守而言,很多目前人類從事的活動都將因為深度學習和相關技術的發展被機器取代,如自動汽車駕駛,無人飛機,以及更加職能的機器人等。深度學習的發展讓我們第一次看到並接近人工智能的終極目標。

深度學習的應用展示: 

  • 無人駕駛汽車中的路標識別
  • Google Now中的語音識別
  • 百度識圖
  • 針對圖片,自動生成文字的描述
圖片文字識別結果:“A person riding a motorcycle on a dirt road,”

3 機器學習相關概念介紹


基本概念:訓練集,測試集,特征值,監督學習,非監督學習,半監督學習,分類,回歸
概念學習:人類學習概念:鳥,車,計算機
定義:概念學習是指從有關某個布爾函數的輸入輸出訓練樣例中推斷出該布爾函數
例子:學習 “享受運動" 這一概念:
小明進行水上運動,是否享受運動取決於很多因素
樣例 天氣 溫度 濕度 風力 水溫 預報 享受運動
1 普通 一樣
2 一樣
3 變化
4 變化

天氣:晴,陰,雨
溫度:暖,冷
濕度:普通,大
風力:強,弱
水溫:暖,冷
預報:一樣,變化
享受運動:是,否
概念定義在實例(instance)集合之上,這個集合表示為X。(X:所有可能的日子,每個日子的值由 天氣,溫度,濕度,風力,水溫,預 報6個屬性表示。待學習的概念或目標函數成為目標概念(target concept), 記做c。c(x) = 1, 當享受運動時, c(x) = 0 當不享受運動時,c(x)也可叫做y
x: 每一個實例
X: 樣例, 所有實例的集合
學習目標:f: X -> Y
訓練集(training set/data)/訓練樣例(training examples): 用來進行訓練,也就是產生模型或者算法的數據集
測試集(testing set/data)/測試樣例 (testing examples):用來專門進行測試已經學習好的模型或者算法的數據集
特征向量(features/feature vector):屬性的集合,通常用一個向量來表示,附屬於一個實例
標記(label): c(x), 實例類別的標記
正例(positive example)
反例(negative example)
 
例子:研究美國硅谷房價
影響房價的兩個重要因素:面積(平方米),學區(評分1-10)
 
 
樣例 面積(平方米) 學區 (11.2 深度學習(Deep Learning)介紹-10) 房價 (1000$)
1 100 8 1000
2 120 9 1300
3 60 6 800
4 80 9 1100
5 95 5 850
 
分類 (classification): 目標標記為類別型數據(category)
回歸(regression): 目標標記為連續性數值 (continuous numeric value)
 
例子:研究腫瘤良性,惡性於尺寸,顏色的關系
特征值:腫瘤尺寸,顏色
標記:良性/惡性
 
有監督學習(supervised learning): 訓練集有類別標記(class label)
無監督學習(unsupervised learning): 無類別標記(class label)
半監督學習(semi-supervised learning):有類別標記的訓練集 + 無標記的訓練集
 

4 機器學習步驟框架


  1. 把數據拆分為訓練集和測試集

  2. 用訓練集和訓練集的特征向量來訓練算法

  3. 用學習來的算法運用在測試集上來評估算法 (可能要設計到調整參數(parameter tuning), 用驗證集(validation set)

例如:
100 天: 訓練集
10天:測試集 (不知道是否 ” 享受運動“, 知道6個屬性,來預測每一天是否享受運動)
 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM