多標簽分類概述

本文轉載自查看原文 2021-10-12 20:59 155 CV技術指南

前言

本文介紹了多標簽分類的基本概念和評估指標，總結了可用於提高多標簽分類模型性能的多種方法：建模技巧、監督特征選擇方法、無監督特征選擇方法和上采樣方法。

本文來自公眾號CV技術指南的技術總結系列

關注公眾號CV技術指南，專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀。

什么是多標簽分類？

眾所周知，二元分類將給定的輸入分為兩類，1 或 0。多標簽或多目標分類從給定的輸入中同時預測多個二元目標。例如，我們的模型可以預測給定的圖片是狗還是貓，以及它的皮毛是長還是短。

目標在多標簽分類中是互斥的，這意味着一個輸入可以屬於多個類。

本文將總結一些可以提高多標簽分類模型性能的常用方法。

評分指標

大多數用於二元分類的指標可以通過計算每列的指標，然后取分數的平均值來應用於多標簽。我們可以使用的一個指標是對數損失或二元交叉熵。對於考慮類不平衡的更好度量，我們可以使用 ROC-AUC。

ROC-AUC曲線

建模技巧

在我們開始對特征進行花哨的技巧之前，分享一些關於設計適合多標簽分類情況的模型的技巧。

對於大多數非神經網絡模型，唯一的選擇是為每個目標訓練一個分類器，然后結合預測。庫 scikit-learn 提供了一個簡單的包裝類來執行此操作，即 OneVsRestClassifier。

盡管這將使分類器能夠執行多標簽任務，但這不是應該采用的方法。這有幾個缺點。首先，訓練時間會比較長，至於每個目標，我們都在訓練一個新的模型。其次，模型無法學習不同標簽之間的關系或標簽相關性。

第二個問題可以通過執行兩階段訓練來解決，我們將目標的預測與原始特征相結合作為第二階段訓練的輸入數據。這樣做的缺點是訓練時間將大大增加，因為現在您必須訓練兩倍於以前的模型數量。

神經網絡更適合這種情況。標簽的數量是網絡中輸出神經元的數量。現在我們可以將任何二元分類損失應用於模型，模型將同時輸出所有目標。這解決了非神經網絡模型的兩個問題，因為我們只需要訓練一個模型，網絡可以通過輸出神經元學習不同的標簽相關性。

監督特征選擇方法

在開始任何特征工程或選擇之前，特征應該被規范化或標准化。使用 Quantile Transformer 將減少數據的偏度，使特征服從正態分布。另一種選擇是標准化特征，這可以通過從數據中減去均值，然后除以標准差來完成。與 Quantile Transformer 相比，這完成了類似的工作，兩者都旨在將數據轉換為更魯棒，但 Quantile Transformer 的計算成本更高。

在這種情況下使用監督特征選擇方法有點棘手，因為大多數算法都是為單個目標設計的。為了解決這個問題，我們可以將多標簽情況轉換為多類問題。一種流行的方法是 LabelPowerset，其中將訓練數據的每個唯一標簽組合轉換為一個類。scikit-multilearn 庫為此提供了工具。

工具鏈接：

http://scikit.ml/api/skmultilearn.problem_transform.lp.html

變換后，我們可以使用信息增益和chi2等方法來選擇特征。雖然這種方法是可行的，但當我們有數百甚至數千種不同的獨特標簽組合時，事情就會變得棘手，這就是無監督特征選擇方法可能更好的地方。

無監督特征選擇方法

在無監督方法中，我們不需要考慮多標簽情況的性質，因為無監督方法不依賴於標簽。

這里有一些算法：

主成分分析或其他類似的因子分析方法。這會從特征中刪除冗余信息並為模型提取有用的見解。對此的一個重要說明是，確保在應用 PCA 之前先對數據進行標准化，因為這樣每個特征對分析的貢獻都是相同的。使用 PCA 的另一個技巧是，我們可以將這些減少的特征連接回原始數據，作為模型可以選擇使用的額外信息，而不是采用算法提供的縮減特征。
方差閾值。這是一種降低特征維度的簡單而有效的方法。我們丟棄具有低方差或分布的特征。這可以通過找到更好的選擇閾值來優化，一般使用0.5作為初始閾值。
聚類。我們可以通過從輸入數據創建集群來創建新特征，然后將相應的集群分配給輸入數據的每一行作為新的特征列。