【遷移學習】2010-A Survey on Transfer Learning


資源:http://www.cse.ust.hk/TL/

image


簡介:

一個例子:

       關於照片的情感分析.

       源:比如你之前已經搜集了大量N種類型物品的圖片進行了大量的人工標記(label),耗費了巨大的人力物力,構建了源情感分類器(即輸入一張照片,可以分析出照片的情感).注:這里的情感不是指人物的情感,而是指照片中傳達出來的情感,比如這張照片是積極的還是消極的.

       目標:因為不同類型的物品,他們在源數據集中的分布也是不同的,所以為了維護一個很好的分類器性能,經常需要增加新的物品.傳統的方式是搜集大量N+1號物品的照片進行大量的人工標記.建立模型.而遷移學習要做的是借鑒之前已經訓練好的針對N中類型的分類器,來訓練這個N+1號分類器.這樣就節省了大量的人工標注的成本.

與傳統進行比較:

image


幾個概念:

(1)domain D:

包含一個特征空間X和一個邊緣概率分布P(X)image

image

如果兩個域不同,那么他們可能有不同的特征空間和邊緣概率分布.

(2)task T:

給定一個域D,一個task包含兩部分:一個標記空間y和一個目標預測函數f().imageimage

f()可以用於預測一個新的instance x的label.f(x)可以表示為image

遷移學習:給定一個源域DS和一個學習任務(task)TS,一個目標域DT和一個目標學習任務TT.遷移學習旨在利用DS和TS中的knowledge來提高目標預測函數f()在DT中的性能,其中DS≠DT或TS≠TT.


幾個問題:

(1)遷移什么?

什么樣的knowledge可以拿來遷移?      答:源域和目標域有相關性的才可以拿來遷移.

image

可以發現,我們把遷移學習的learning settings分為3類:

inductive transfer learning(歸納遷移學習), transductive transfer learning(直推式遷移學習), and unsupervised transfer learning(無監督遷移學習).

image

a.inductive transfer learning(歸納遷移學習)

研究較多

分為兩類:

第一類:

inductive transfer learning:通過把knowledge從源task遷移到目標task,以此在目標task中取得高性能

multitask learning : 同時學習目標和源task

第二類:

源域和目標域的標記空間不同

b.transductive transfer learning(直推式遷移學習)

c.unsupervised transfer learning(無監督遷移學習)

研究較少

image

image

image

(2)怎么遷移?

(3)什么時候遷移?


inductive transfer learning(歸納遷移學習)

定義:給定一個源域DS和一個學習任務TS,一個目標域DT和一個學習任務TT.歸納遷移學習旨在通過使用DS和TS中的知識來提高目標預測函數的性能,其中TS≠TT.

目標域中需要少量的標記好的數據作為訓練集.

(1)遷移instances中的knowledge

盡管源域中並非所有數據都可以被利用,但是,還是可以提取出其中的部分有標記的數據用於目標域.

(2)遷移feature representative中的knowledge

目的:找到好的特征代表,以此來減小源域與目標域中的差異.不同的源域數據類型,找到這些好的特征代表的策略也是不同的.

如果源域中有大量有效的帶標記的數據,監督學習方法可以用於構建一個特征代表.

如果沒有,則采用無監督學習方法來構造特征代表.

(3)遷移Parameters中的knowledge

有相關的task的不同模型之間應該共享一些參數或超參數的先驗分布.

不同的域,參數不同.在目標域中,損失函數需要設定更大的權重.

(4)遷移Relational中的knowledge

比如數據網和社會網絡.嘗試將源域中的relationship轉換到目標域中.

方法: statistical relational learning techniques


transductive transfer learning(直推式遷移學習)

源task和目標task是一樣的,域不同.

利用部分目標數據來獲得邊緣概率.

定義:給定一個源域DS和相應的學習taskTS,一個目標域DT和相應的學習task.直推式學習旨在提高DT中的目標預測函數f(),利用DS和TS中的knowledge.其中DS≠DT且TS=TT.此外,訓練時需要一些無標記的目標域數據.

(1)遷移instances中的knowledge

方法:重要性抽樣:通過最小化期望風險來學習到模型中的最優參數

(2)遷移feature representative中的knowledge

利用目標域中的無標記數據來提取一些相關的特征,以此來減小域的差異性.


unsupervised transfer learning(無監督遷移學習)

定義:給定一個源域DS和相應的學習taskTS,一個目標域DT和相應的學習task.直推式學習旨在提高DT中的目標預測函數f(),利用DS和TS中的knowledge.其中TS≠TT且YS和YT並不明顯.

在源域和目的域中都沒有標記的數據.

(1)遷移feature representative中的knowledge

以自學習聚類(self-taught  clustering)為例,旨在通過源域中大量的無標記的數據,在目標域中對少量的無標記的數據進行聚類,


遷移學習的邊界和消極遷移學習

如果兩個域之間沒有半毛錢關系,那么這種遷移的效果會很差.


遷移學習的應用

  1. 自然語言處理
  2. 情緒分類問題
  3. 圖片分類問題
  4. wifi定位

遷移學習的幾個數據集和工具

 

 

 

 

S


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM