幾個概念
- 預訓練
- 自訓練
- 自監督學習
- 半監督學習
- 監督學習
- 無監督學習
區分
預訓練
- 廣義上講:是對一個模型進行“預先訓練”,以完成后續的下游任務
- 狹義上講(更常用):在大規模無標注語料上,用自監督的方式訓練模型
自訓練
- 常應用於CV領域
- 有一個Teacher模型\(M_{teacher}\)和一個Student模型\(M_{student}\),首先在標注數據上訓練\(M_{teacher}\),然后用它對大規模無標注數據進行標注,把得到的結果(與少量有標簽數據混合)當做偽標注數據去訓練\(M_{student}\)
- 使用少量的標記數據和大量的未標記數據對模型進行聯合訓練
預訓練與自訓練是同級概念,其中分別可以與“監督/半監督/無監督/自監督”進行組合
監督與無監督
- 無監督的典型任務是聚類算法
半監督
- 沒有太多意義的一個概念
- 其中的代表即自訓練,甚至基本等同
自監督
- 是狹義上“預訓練”的實現方法
- 與完全不受監督的設置相比,自監督學習使用數據集本身的信息來構造偽標簽
- 是一種具有監督形式的特殊形式的非監督學習方法