上一篇博客介紹了准確率和F值這兩個評估模型分類性能的指標,它們在聚類模型上的應用會稍微復雜一點點。
下文摘自知乎幾種常見的聚類評估指標。
假設我們現在有貓狗圖片100張,其中貓又25張,狗有75張。現在我們通過某種聚類算法對其進行聚類,聚類的結果為簇A中有38張圖片(其中20張貓18張狗),簇B中有62張圖片(其中5張貓57張狗)。那么請問如何計算該聚類算法的准確率與F值?
由於聚類算法只會將原始數據樣本划分為K個簇,但是並不會告訴我們每個簇分別對應那個類別。正如上述聚類結果一樣,聚類算法只將這100張圖片聚成了A、B兩個簇,但是我們並不知道到底是簇A和簇B與貓狗的對應關系。因此,我們在計算准確率的時候就要分兩種情況來考慮。
計算准確率
計算F值
上面介紹的是聚為2類的情況,如果聚為多類,則需要用排列組合的方法,分別計算每個情況的准確率和F值,選最高的值為最終值。