主動學習——active learning


 

1. 寫在前面

  在機器學習(Machine learning)領域,監督學習(Supervised learning)、非監督學習(Unsupervised learning)以及半監督學習(Semi-supervised learning)是三類研究比較多,應用比較廣的學習技術,wiki上對這三種學習的簡單描述如下:

  • 監督學習:通過已有的一部分輸入數據與輸出數據之間的對應關系,生成一個函數,將輸入映射到合適的輸出,例如分類。
  • 非監督學習:直接對輸入數據集進行建模,例如聚類。
  • 半監督學習:綜合利用有類標的數據和沒有類標的數據,來生成合適的分類函數。

  其實很多機器學習都是在解決類別歸屬的問題,即給定一些數據,判斷每條數據屬於哪些類,或者和其他哪些數據屬於同一類等等。這樣,如果我們上來就對這一堆數據進行某種划分(聚類),通過數據內在的一些屬性和聯系,將數據自動整理為某幾類,這就屬於非監督學習。如果我們一開始就知道了這些數據包含的類別,並且有一部分數據(訓練數據)已經標上了類標,我們通過對這些已經標好類標的數據進行歸納總結,得出一個 “數據-->類別” 的映射函數,來對剩余的數據進行分類,這就屬於監督學習。而半監督學習指的是在訓練數據十分稀少的情況下,通過利用一些沒有類標的數據,提高學習准確率的方法。

 

2. 什么是active learning?

  在真實的數據分析場景中,我們可以獲取海量的數據,但是這些數據都是未標注數據,很多經典的分類算法並不能直接使用。那肯定會有人說,數據是沒有標注的,那我們就標注數據嘍!這樣的想法很正常也很單純,但是數據標注的代價是很大的,及時我們只標注幾千或者幾萬訓練數據,標注數據的時間和金錢成本也是巨大的。

  在介紹active learning的概念之前,首先先談一下樣本信息的問題。

  什么是樣本信息呢?簡單地來講,樣本信息就是說在訓練數據集當中每個樣本帶給模型訓練的信息是不同的,即每個樣本為模型訓練的貢獻有大有小,它們之間是有差異的。

  因此,為了盡可能地減小訓練集及標注成本,在機器學習領域中,提出主動學習(active learning)方法,優化分類模型。

  主動學習(active learning),指的是這樣一種學習方法:

  有的時候,有類標的數據比較稀少而沒有類標的數據是相當豐富的,但是對數據進行人工標注又非常昂貴,這時候,學習算法可以主動地提出一些標注請求,將一些經過篩選的數據提交給專家進行標注。

  這個篩選過程也就是主動學習主要研究的地方了。

 

3. active learning的基本思想

  主動學習算法可以由以下五個組件進行建模:

  A=(C,L,S,Q,U)A=(C,L,S,Q,U)
  其中 CC 為一個或一組分類器;LL 為一組已標注的訓練樣本集;QQ 為查詢函數,用於在未標注的樣本中查詢信息量大的樣本;UU 為整個未標注樣本集;SS 為督導者,可以對未標注樣本進行標注。

  主動學習算法主要分為兩階段:

  第一階段為初始化階段,隨機從未標注樣本中選取小部分,由督導者標注,作為訓練集 建立初始分類器模型;

  第二階段為循環查詢階段,SS 從未標注樣本集 UU 中,按照某種查詢標准 QQ,選取一定的未標注樣本進行標注,並加到訓練樣本集 LL 中, 重新訓練分類器,直至達到訓練停止標准為止。 

  主動學習算法是一個迭代的過程,分類器使用 迭代時反饋的樣本進行訓練,不斷提升分類效率。 

  主動學習的實例:qq空間相冊中的人臉識別技術

  下圖為Action learning在相同的標注樣本數目下與監督學習算法的比較:

 

  從上圖也可以看出來,在相同數目的標注數據中,主動學習算法比監督學習算法的分類誤差要低。這里注意橫軸是標注數據的數目,對於主動學習而言,相同的標注數據下,主動學習的樣本數>監督學習,這個對比主要是為了說明兩者對於訓練樣本的使用效率不同:主動學習訓練使用的樣本都是經過算法篩選出來對於模型訓練有幫助的數據,所以效率高。但是如果是相同樣本的數量下去對比兩者的誤差,那肯定是監督學習占優,這是毋庸置疑的。
 

4. active learning與半監督學習的不同

  很多人認為主動學習也屬於半監督學習的范疇了,但實際上是不一樣的,半監督學習和直推學習(transductive learning)以及主動學習,都屬於利用未標記數據的學習技術,但基本思想還是有區別的。

  如上所述,主動學習的“主動”,指的是主動提出標注請求,也就是說,還是需要一個外在的能夠對其請求進行標注的實體(通常就是相關領域人員),即主動學習是交互進行的。

  而半監督學習,特指的是學習算法不需要人工的干預,基於自身對未標記數據加以利用。

 

5. 參考文獻

  [1] active learning wiki

  [2] 2012,主動學習算法綜述


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM