前期做數據可視化,發現標簽數據存在一些孤立點(噪聲點),影響kmeans聚類。
處理方法如下:
使用kmeans迭代10次得到聚類中心
計算所有數據到其聚類中心的歐式距離均值和方差
通過擬合正態分布,把到聚類中心距離大於均值+1.96*方差的點剔除訓練集(根據正態分布0.95面積算的)
得到新的訓練集以及anchor
以上方法並不完全適應yolo計算anchor的需求(與yolo網絡本身有關)
建議使用darknet自帶的anchor計算工具,而非opencv的kmeans工具。