Transductive Learning(直推式學習)


Transductive Learning:從彼個例到此個例,有點象英美法系,實際案例直接結合過往的判例進行判決。關注具體實踐。

Inductive Learning:從多個個例歸納出普遍性,再演繹到個例,有點象大陸法系,先對過往的判例歸納總結出法律條文,再應用到實際案例進行判決。從有限的實際樣本中,企圖歸納出普遍真理,傾向形而上,往往會不由自主地成為教條。

在傳統的監督學習中,學習器通過對大量有標記的(labeled)訓練例進行學習,從而建立模型用於預測未見示例的標記。這里的“標記”(label)是指示例所對應的輸出,在分類問題中標記就是示例的類別,而在回歸問題中標記就是示例所對應的實值輸出。隨着數據收集和存儲技術的飛速發展,收集大量未標記的(unlabeled)示例已相當容易,而獲取大量有標記的示例則相對較為困難,因為獲得這些標記可能需要耗費大量的人力物力。例如在計算機輔助醫學圖像分析中,可以從醫院獲得大量的醫學圖像作為訓練例,但如果要求醫學專家把這些圖像中的病灶都標識出來,則往往是不現實的。事實上,在真實世界問題中通常存在大量的未標記示例,但有標記示例則比較少,尤其是在一些在線應用中這一問題更加突出。例如,在進行Web網頁推薦時,需要用戶標記出哪些網頁是他感興趣的,很少會有用戶願意花大量的時間來提供標記,因此有標記的網頁示例比較少,但Web上存在着無數的網頁,它們都可作為未標記示例來使用。

  目前,利用未標記示例的主流學習技術主要有三大類[Zhou06],即半監督學習(semi-supervised learning)、直推學習(transductive learning)和主動學習(active learning)。這三類技術都是試圖利用大量的未標記示例來輔助對少量有標記示例的學習,但它們的基本思想卻有顯著的不同。在半監督學習[ChapelleSZ06][Zhu06]中,學習器試圖自行利用未標記示例,即整個學習過程不需人工干預,僅基於學習器自身對未標記示例進行利用。直推學習[Vapnik98][Joachims99]與半監督學習的相似之處是它也是由學習器自行利用未標記示例,但不同的是,直推學習假定未標記示例就是測試例,即學習的目的就是在這些未標記示例上取得最佳泛化能力。換句話說,半監督學習考慮的是一個“開放世界”,即在進行學習時並不知道要預測的示例是什么,而直推學習考慮的則是一個“封閉世界”,在學習時已經知道了需要預測哪些示例。實際上,直推學習這一思路直接來源於統計學習理論[Vapnik98],並被一些學者認為是統計學習理論對機器學習思想的最重要的貢獻1。其出發點是不要通過解一個困難的問題來解決一個相對簡單的問題。V. Vapnik認為,經典的歸納學習假設期望學得一個在整個示例分布上具有低錯誤率的決策函數,這實際上把問題復雜化了,因為在很多情況下,人們並不關心決策函數在整個示例分布上性能怎么樣,而只是期望在給定的要預測的示例上達到最好的性能。后者比前者簡單,因此,在學習過程中可以顯式地考慮測試例從而更容易地達到目的。這一思想在機器學習界目前仍有爭議,但直推學習作為一種重要的利用未標記示例的技術,則已經受到了眾多學者的關注。主動學習[SeungOS92][LewisG94][AbeM98]和前面兩類技術不同,它假設學習器對環境有一定的控制能力,可以“主動地”向學習器之外的某個“神諭”(oracle)2 進行查詢來獲得訓練例的標記。因此,在主動學習中,學習器自行挑選出一些未標記示例並通過神諭查詢獲得這些示例的標記,然后再將這些有標記示例作為訓練例來進行常規的監督學習,而其技術難點則在於如何使用盡可能少的查詢來獲得強泛化能力。對比半監督學習、直推學習和主動學習可以看出,后者在利用未標記示例的過程中需要與外界進行交互,而前兩者則完全依靠學習器自身,正因為此,也有一些研究者將直推學習作為一種半監督學習技術來進行研究。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM