弱監督學習總結(1)
前言:
目前深度學習可謂是資本寵兒,各路大牛公司均加入深度學習軍備競賽,百度最早成立人工智能研究院,接着騰訊的AI研究所和阿里的達摩院,均是投入血本進行深度研發,不僅是人才的競爭,還有數據/計算能力和應用項目落地的競爭。大公司在競爭,小公司也不甘示弱,每天都能看到新的AI公司在成立,招兵買馬大干一場,這也是一場殘酷的戰爭。
在學習過Udacity和吳恩達的deeplearning課程之后,我對深度學習又有了新的一些看法。確實,深度學習在語音/圖像和自然語言方面相比傳統算法有長足的進步,很多方面的識別率超過人類水平,於是各路媒體大肆渲染深度學習算法的神奇之處,說着說着就將深度學習算法和人工智能混為一談,認為再過不久,人類很快就被機器所代替。
其實,這些宣傳是非常不謹慎的,計算機確實在某些領域能有很高的准確率,但相比人類來說,它們在邏輯推理,組合,分析方面的能力是遠遠不夠智能的,更不用談它們能創新創造。在我看來,人類巨大的腦容量所連接的海量神經元絕對是自然賜予人類最寶貴的財富,它的復雜程度比世界上運算量最大的計算機還高出好幾個指數級,大腦的學習/思考/分析/創造能力是遠非機器所能比擬的,我覺得只有更深入的了解物質組成的本質,比如量子理論和量子計算的發展,才能讓計算機比擬人類能力,獲得更強大的能力。而目前的深度神經網絡只是在結構上借鑒了大腦的神經元結構,但真正具體的神經元工作原理以及如何去實現復雜的分析推理工作連人類自己都不得而知,更談不上讓機器人代替人類做出復雜的決策,讓機器人去學習難以用邏輯推理去定義的情感。
之所以說這些想法,是因為太多人談到深度學習就是人工智能,其實這個發展過程是十分漫長的。研究人工智能,這不僅僅是讓人類生活的更輕松,而且還能認識到人類的本質,至少是我們對於自身理性邏輯思維方面的深刻認識,但千萬不要太迷信深度學習,也不要將深度學習和人工智能混為一談。
什么是弱監督學習?
一般常常談到深度學習,就是根據數據特點,選擇合適模型(CNN.RNN)等去訓練模型,讓模型自己尋找數據特征,構造合適損失函數並優化到最小值,得到的模型參數就是我們需要的結果,這個過程一般稱為(強)監督學習。而這個過程中有一個問題,在日常生活中會有大量的數據,但給數據都加上標簽(label)成本太高,我們得想辦法既能降低成本,又能得到更准確的模型,這個時候弱監督學習就閃亮登場了。
弱監督學習是相對於強監督學習和無監督學習來說的,當我們得到的數據集之中只有一部分數據有標簽,而另一部分數據沒有標簽,但我們還是想訓練一個不錯的模型(窮且傲嬌),我們稱其為弱監督學習,利用這非常規的數據集來訓練模型,到底該咋辦呢?
分類
弱監督學習一般可以根據數據類型分為三類:
- 不完整監督學習(incomplete supervised learning):數據中只有一部分由標記
- 不確切監督學習(inexact supervised learning):數據中標記數據粗粒度太大
- 不准確監督學習(inaccurate supervised learning):數據中標簽錯誤

不完整監督學習
數據既然不完整,那我們只能想辦法根據這有限的數據來訓練模型了,前人學霸們都做了哪些研究呢?我們來瞧一瞧。
主動學習(active learning)
- 思路:提取數據樣本中最有價值的樣本進行標記,性價比最高!(我沒錢就找幾個有用的數據打標簽,能提高一點是一點)
說白了,就是在成本有限的情況下找出模型預測最容易出錯的數據打上標簽,將打上標簽后的數據繼續放入模型訓練,直到得到滿意的模型。

-
核心問題:如何尋找最有價值標簽?通過何種方式標記?
-
常用方法:最笨——從頭開始;第二笨——按順序給出;第三種——選出易錯點,利用熵值或者多樣性評判;(說白了,就像小學生復習考試,那些題老是錯才值得多花時間練習,如果從頭開始復習,可能沒多久就去王者榮耀或者吃雞了,哪還有那閑工夫慢慢磨機)
-
理論:informativeness (最大程度降低統計分布誤差)和representiveness(最大化展現輸入數據的模式),前者例如高斯混合模型,但過於依賴模型輸入的概率分布方式;后者比如聚類,過於依賴數據的輸入模式)
主動學習的思想,是在人類一定的干預之下提高模型的效果,但設計的特征方式均需要人類大量的先驗知識,也就是想設計出不錯的模型,你可能得是個“磚家”!

這次先記錄這么多,其實主動學習屬於傳統的建模學習方法,相比於深度學習可能沒有那么神奇,但將主動學習的思想加入深度學習之中,可能就能有效的解決實際問題,比如CVPR2017會議中這篇論文:https://www.jianshu.com/p/42801f031cfa,很簡單的方法但對於實際問題十分有效,更重要的是作者對於問題清晰和准確的定義和分析,不單單是建立一個模型和復雜的損失函數,而是對模型訓練中出現的多種情形進行了總結分析,給出了不錯的指導意見,十分有效!
下篇接着講弱監督學習中的半監督學習,這部分涉及方法非常廣泛,也非常有趣。
