在在線數據的更新時,為了避免重新標注新增所有數據,會采用主動學習的策略。
什么是主動學習
主動學習是機器學習的一種特殊情況,其中學習算法可以交互地查詢用戶(或某些其他信息源),以用期望的輸出標記新的數據點。在統計資料中,有時也稱為最佳實驗設計。信息源也稱為教師或甲骨文。
在某些情況下,未標記的數據很多,但是手動標記的成本很高。在這種情況下,學習算法可以主動向用戶/教師查詢標簽。這種類型的迭代監督學習稱為主動學習。由於學習者選擇示例,因此學習一個概念的示例數量通常會比正常的監督學習所需的數量少得多。使用這種方法,存在算法被無用信息的示例淹沒的風險。最近的發展致力於多標簽主動學習,混合主動學習和單遍(在線)上下文中的主動學習,結合了機器學習領域的概念(例如沖突和無知)在線機器學習領域的增量學習策略。
From wikipedia
主動學習應用到深度學習上起源於Wang and Shang [1],
文獻[2]應用主動學習,以提高CNNNs的CAPTCHA識別的性能,
這些方案在每次迭代中,都反復從頭開始對學習器進行了重新訓練,而Zhou等人[3]以增量學習的方式不斷地微調CNN,將增量學習與主動學習結合
[1] Wang, Dan, and Yi Shang. "A new active labeling method for deep learning." 2014 International joint conference on neural networks (IJCNN). IEEE, 2014.
[2] Stark, Fabian, et al. "Captcha recognition with active deep learning." Workshop new challenges in neural computation. Vol. 2015. Citeseer, 2015.
[3] Zhou, Zongwei, et al. "Fine-tuning convolutional neural networks for biomedical image analysis: actively and incrementally." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.
文獻[3] Fine-tuning convolutional neural networks for biomedical image analysis: actively and incrementally
中文翻譯:https://www.leiphone.com/news/201707/GrFoDuRwYNpttISb.html
提出AIFT,結合了主動學習和增量學習。
兩個概念:candidate和patch。candidate表示一次訓練中所有的訓練候選樣本,每一個候選樣本(candidate)通過數據增強可以生成一系列的patches,由於這些patches來自於同一個候選樣本,所以它們的標簽跟該候選樣本一致。
- 持續微調。
- 主動候選選擇。每一個patch使用熵(entropy)和多樣性(diversity),熵表示該樣本的高信息量(不確定性);多樣性表示該樣本在一組patches的預測不一致度,使用KL-div衡量。這兩個指標越高,越有可能對當前的CNN優化越大。對每個矩陣都可以生成一個包含patch的KL距離和熵的鄰接矩陣R。
- 多數選擇來處理噪聲標簽。對每個候選樣本的所有patch,計算平均的預測概率,預測均值大於0.5便選擇該patch中top ⍺比例的樣本,反之選擇bottom ⍺比例的樣本。因為普遍都會使用一些自動的數據增強的方法,來提高CNN的表現,但是不可避免的給某些候選樣本生成了一些難的樣本,給數據集注入了一些噪音。
- 預測出的結果有不同的模式:
- patch大部分集中在0.5,不確定性很高,大多數的主動學習算法都喜歡這種候選集。
- 比a還更好,預測從0-1分布均勻,導致了更高的不確定性,因為所有的patch都是通過同一個候選集數據增強得到,他們理論上應該要有差不多的預測。這種類型的候選集有明顯優化CNN模型的潛力。
- 預測分布聚集在兩端,導致了更高的多樣性,但是很有可能和patch的噪聲有關,這是主動學習中最不喜歡的樣本,因為有可能在fine-tuning的時候迷惑CNN。
- 預測分布集中在一端(0或1),包含更高的確定性,這類數據的標注優先級要降低,因為當前模型已經能夠很好的預測它們了。
- 在某些補丁的預測中有更高的確定性,並且有些還和離群點有關聯,這類候選集是有價值的,因為能夠平滑的改善CNN的表現,盡管不能有顯著的貢獻,但對當前CNN模型不會有任何傷害。