機器學習基石筆記3——在何時可以使用機器學習(3)(修改版)


轉載請注明出處:http://www.cnblogs.com/ymingjingr/p/4271742.html

目錄

機器學習基石筆記1——在何時可以使用機器學習(1)

機器學習基石筆記2——在何時可以使用機器學習(2)

機器學習基石筆記3——在何時可以使用機器學習(3)(修改版)

機器學習基石筆記4——在何時可以使用機器學習(4)

機器學習基石筆記5——為什么機器可以學習(1)

機器學習基石筆記6——為什么機器可以學習(2)

機器學習基石筆記7——為什么機器可以學習(3)

機器學習基石筆記8——為什么機器可以學習(4)

機器學習基石筆記9——機器可以怎樣學習(1)

機器學習基石筆記10——機器可以怎樣學習(2)

機器學習基石筆記11——機器可以怎樣學習(3)

機器學習基石筆記12——機器可以怎樣學習(4)

機器學習基石筆記13——機器可以怎樣學得更好(1)

機器學習基石筆記14——機器可以怎樣學得更好(2)

機器學習基石筆記15——機器可以怎樣學得更好(3)

機器學習基石筆記16——機器可以怎樣學得更好(4)

 

三、Types of Learning

各種類型的機器學習問題。

3.1 Learning with Different Output Space

不同類型的輸出空間。

3.1.1 binary classification

二元分類問題。

前兩章中提到的銀行發信用卡問題就是一個典型的二元分類問題,其輸出空間只包含兩個標記+1和-1,分別對應着發卡與不發卡。

當然二元分類問題包含多種情況,如2.3節中提到過,如圖3-1所示。

 

圖3-1 a) 線性可分 b) 線性不可分包含噪音 c) 多項式可分

 

圖3-1a為線性可分(linear binary separable),如可以使用PLA求解;b是包含噪音可以使用pocket求解,而c會在后面章節中詳細敘述,屬於多項式可分解。當然解決以上三種二元分類問題的機器學習方法很多,因為二元分類問題是機器學習中很重要、核心的問題。

 

3.1.2 Multiclass Classification

多元分類。

有二元分類,就不難想到多元分類的問題,該類問題輸出標簽不止兩種,而是{1,2,…,K}。這在人們的生活中非常常見,比如給水果的圖像分類,識別硬幣等等,其主要的應用場景就是模式識別。

 

3.1.3 Regression

回歸分析。

該問題的輸出空間為整個實數集上或者在一定的實數范圍內,這和前面講的分類問題完全不一樣,該輸出不是一種毫無意義的標記,而是有實際意義的輸出值。比如給定一個大氣數據可以推出明天的天氣等等之類的問題。統計學習對該類問題的研究比較成熟。

 

3.1.4 Structured Learning

結構學習。

當然還有其他更為復雜的問題,比如很多很多類型的分類問題。

 

3.2 Learning with Different Data Label

不同的數據標記。

3.2.1 Supervised Learning

監督學習。

知道數據輸入的同時還知道數據的標記。就相當於告訴你題目的同時還告訴你答案,讓你在這種環境下學習,稱之為監督學習(supervised learning)或者叫有師學習(learning with a teacher),之前討論的一些算法都是這類問題。舉個例子,硬幣分類問題,如圖3-2所示,其中橫軸標示硬幣的大小,縱軸標示硬幣聚集的堆。

 

圖3-2 有監督的多類別分類問題

 

其中這幾種類別的硬幣已經被各種不同的顏色所標示好。

 

3.2.2 Unsupervised Learning

無監督學習。

這是一種沒有標示(就是沒有輸出y)的問題,就是不告訴你題目的正確答案讓你自己去尋找,再以硬幣分類為例進行闡述,如圖3-3所示。

 

圖3-3 無監督的多類別分類問題

 

這種類型的問題最常見的是聚類或者叫分群(clustering),從圖中不難看出無標示的難度比有標示的難度增加不少,而且極有可能犯錯,但是這種問題卻擁有廣泛的應用場景(畢竟標示需要花費大量人力物力),如將新聞按照不同的主題聚類,按用戶的屬性將用戶聚成不同類型的用戶群等等。

除了聚類之外還有其他的無監督學習,如密度評估(density estimation)和離群點檢測(outlier detection)等等。

 

3.2.3 Semi-supervised Learning

半監督學習。

是否能在監督式學習和無監督學習之間取一個中庸的方法呢?答案是可以的,就是半監督學習,它通過少量有標記的訓練點和大量無標記的訓練點達到學習的目的。還是以硬幣為例,如圖3-4所示。這種類型的例子也有很多,比如圖像的識別,很多情況下我們不可能把每張圖片都做上標記(因為做這種標記需要耗費大量的人力物力,是一種昂貴的行為),此時,使用半監督學習是一種不錯的選擇。

 

圖3-4 半監督學習

 

3.2.4 Reinforcement Learning

強化學習。

前面三個是機器學習中最傳統的三種方式,除此之外,還有一種方式是通過對一個行為作出獎勵或者懲罰,以此獲得的輸出,進而進行學習,這種學習方式稱之為強化學習。

一般可以表示為,其中向量還是為輸入向量,表示一種輸出,注意並不一定是最佳輸出,最后一項是對輸出做出的評判。比如一個廣告系統可以寫成如下形式

 

3.3 Learning with Different Protocol

不同方式獲取數據。

對此節的內容進行簡單闡述,在不同的協議中可以將機器學習分為三大類:

  1. 批量(batch)學習就是將很多數據一次性的給算法進行學習,最常見的方式;
  2. 在線(online)學習就是一點一點將數據傳輸進去,如PLA和增強學習都適用於這種形式;
  3. 主動(active)學習是主動提出問題讓算法解決,可以節省大量的訓練和標記消耗。

     

3.4 Learning with Different Input Space

不同的輸入空間。

輸入又可以稱之為特征(features),其主要分為三種:

  1. 具體特征(Concrete Features),具體特征最大特點就是便於機器學習的處理,也是基礎篇中主要討論的情形。這種情況是人類或者機器通過一定的方式提取獲得的,具有實用性。
  2. 原始特征(Raw Features),如圖片的像素等等,是最為常見到的資料,但是需要經過處理,轉換成具體特征,才容易使用,實用性不太大。
  3. 抽象特征(Abstract Features),如一些ID之類的看似無意義的數據,這就更需要特征的轉換、提取等工作(相對於原始特征而言),幾乎沒有實用性。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM