機器學習中的正/負樣本


 

轉自:http://www.cnblogs.com/rainsoul/p/6247779.html

在機器學習中經常會遇到正負樣本的問題,花了一點時間查找資料,基本上弄明白了一點到底是怎么回事,記錄在這里以便以后查看,也希望能夠幫助到有疑惑的人,當然也希望理解的比較透徹的人看到之后對於理解的不對的地方能夠予以指點。

首先我將這個問題分為分類問題與檢測問題兩個方面進行理解。在分類問題中,這個問題相對好理解一點,比如人臉識別中的例子,查到的資料中介紹的比較清楚的網址如下(http://stackoverflow.com/questions/25598335/collect-negative-samples-of-adaboost-algorithm-for-face-detection),其中的截圖如下,正樣本很好理解,就是人臉的圖片,負樣本的選取就與問題場景相關,具體而言,如果你要進行教室中學生的人臉識別,那么負樣本就是教室的窗子、牆等等,也就是說,不能是與你要研究的問題毫不相關的亂七八糟的場景圖片,這樣的負樣本並沒有意義,還有一個比較好的網址是(http://www.doc.ic.ac.uk/~sgc/teaching/pre2012/v231/lecture10.html)

在檢測的問題中,我理解着就不是那么簡單了,因為檢測問題需要做的事情是指出哪里有什么,也就是既要給出框,又要說明框中是什么,在這種情況下,我們所具備的數據就是一些人工標注的圖片,這些圖片上有框,並且會給出框中的物體類別,我們需要運用這些數據生成訓練中的正負樣本數據,參考了faster以及SSD兩種檢測框架中對於正負樣本的選取准則,我的理解如下:

首先,檢測問題中的正負樣本並非人工標注的那些框框,而是程序中(網絡)生成出來的框框,也就是faster rcnn中的anchor boxes以及SSD中在不同分辨率的feature map中的默認框,這些框中的一部分被選為正樣本,一部分被選為負樣本,另外一部分被當作背景或者不參與運算。不同的框架有不同的策略,大致都是根據IOU的值,選取個閾值范圍進行判定,在訓練的過程中還需要注意均衡正負樣本之間的比例。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM