簡介:
一個例子:
關於照片的情感分析.
源:比如你之前已經搜集了大量N種類型物品的圖片進行了大量的人工標記(label),耗費了巨大的人力物力,構建了源情感分類器(即輸入一張照片,可以分析出照片的情感).注:這里的情感不是指人物的情感,而是指照片中傳達出來的情感,比如這張照片是積極的還是消極的.
目標:因為不同類型的物品,他們在源數據集中的分布也是不同的,所以為了維護一個很好的分類器性能,經常需要增加新的物品.傳統的方式是搜集大量N+1號物品的照片進行大量的人工標記.建立模型.而遷移學習要做的是借鑒之前已經訓練好的針對N中類型的分類器,來訓練這個N+1號分類器.這樣就節省了大量的人工標注的成本.
與傳統進行比較:
幾個概念:
(1)domain D:
如果兩個域不同,那么他們可能有不同的特征空間和邊緣概率分布.
(2)task T:
給定一個域D,一個task包含兩部分:一個標記空間y和一個目標預測函數f().
f()可以用於預測一個新的instance x的label.f(x)可以表示為
遷移學習:給定一個源域DS和一個學習任務(task)TS,一個目標域DT和一個目標學習任務TT.遷移學習旨在利用DS和TS中的knowledge來提高目標預測函數f()在DT中的性能,其中DS≠DT或TS≠TT.
幾個問題:
(1)遷移什么?
什么樣的knowledge可以拿來遷移? 答:源域和目標域有相關性的才可以拿來遷移.
可以發現,我們把遷移學習的learning settings分為3類:
inductive transfer learning(歸納遷移學習), transductive transfer learning(直推式遷移學習), and unsupervised transfer learning(無監督遷移學習).
a.inductive transfer learning(歸納遷移學習)
研究較多
分為兩類:
第一類:
inductive transfer learning:通過把knowledge從源task遷移到目標task,以此在目標task中取得高性能
multitask learning : 同時學習目標和源task
第二類:
源域和目標域的標記空間不同
b.transductive transfer learning(直推式遷移學習)
c.unsupervised transfer learning(無監督遷移學習)
研究較少
(2)怎么遷移?
(3)什么時候遷移?
inductive transfer learning(歸納遷移學習)
定義:給定一個源域DS和一個學習任務TS,一個目標域DT和一個學習任務TT.歸納遷移學習旨在通過使用DS和TS中的知識來提高目標預測函數的性能,其中TS≠TT.
目標域中需要少量的標記好的數據作為訓練集.
(1)遷移instances中的knowledge
盡管源域中並非所有數據都可以被利用,但是,還是可以提取出其中的部分有標記的數據用於目標域.
(2)遷移feature representative中的knowledge
目的:找到好的特征代表,以此來減小源域與目標域中的差異.不同的源域數據類型,找到這些好的特征代表的策略也是不同的.
如果源域中有大量有效的帶標記的數據,監督學習方法可以用於構建一個特征代表.
如果沒有,則采用無監督學習方法來構造特征代表.
(3)遷移Parameters中的knowledge
有相關的task的不同模型之間應該共享一些參數或超參數的先驗分布.
不同的域,參數不同.在目標域中,損失函數需要設定更大的權重.
(4)遷移Relational中的knowledge
比如數據網和社會網絡.嘗試將源域中的relationship轉換到目標域中.
方法: statistical relational learning techniques
transductive transfer learning(直推式遷移學習)
源task和目標task是一樣的,域不同.
利用部分目標數據來獲得邊緣概率.
定義:給定一個源域DS和相應的學習taskTS,一個目標域DT和相應的學習task.直推式學習旨在提高DT中的目標預測函數f(),利用DS和TS中的knowledge.其中DS≠DT且TS=TT.此外,訓練時需要一些無標記的目標域數據.
(1)遷移instances中的knowledge
方法:重要性抽樣:通過最小化期望風險來學習到模型中的最優參數
(2)遷移feature representative中的knowledge
利用目標域中的無標記數據來提取一些相關的特征,以此來減小域的差異性.
unsupervised transfer learning(無監督遷移學習)
定義:給定一個源域DS和相應的學習taskTS,一個目標域DT和相應的學習task.直推式學習旨在提高DT中的目標預測函數f(),利用DS和TS中的knowledge.其中TS≠TT且YS和YT並不明顯.
在源域和目的域中都沒有標記的數據.
(1)遷移feature representative中的knowledge
以自學習聚類(self-taught clustering)為例,旨在通過源域中大量的無標記的數據,在目標域中對少量的無標記的數據進行聚類,
遷移學習的邊界和消極遷移學習
如果兩個域之間沒有半毛錢關系,那么這種遷移的效果會很差.
遷移學習的應用
- 自然語言處理
- 情緒分類問題
- 圖片分類問題
- wifi定位
遷移學習的幾個數據集和工具
S