關於目標檢測其實我一直也在想下面的兩個論斷:
Receptive Field Is Natural Anchor
Receptive Field Is All You Need
只是一直沒有實驗。但是今天有人正式提出來了:
https://github.com/becauseofAI/MobileFace
https://arxiv.org/pdf/1904.10633.pdf
用在人臉上,可以達到實時。
作者根據直覺直接說了:
Based on above understandings, faces with different sizes need various RF strategies:
•for tiny/small faces, ERFs have to cover the faces aswell as sufficient context information;
•for medium faces, ERFs only have to contain the faceswith little context information;
•for large faces, only keeping them in RFs is enough.
翻譯一下:基於以上的理解,圖像中不同大小的臉需要不同的感受野策略:
小的:感受野不僅需要涵蓋臉本身,還需要足夠的背景信息
中的:感受野需要覆蓋臉本身,只需要很少的背景信息
大的:只要臉本身在感受野就足夠。
這與我的體會完全一樣啊,只是作者沒有用到通用目標檢測集中。
網絡是:
不算復雜,損失包含類別損失和邊框損失。
記錄一下。
是的,感受野本身就是區域內的特征信息,是沒有必要再去尋找新的框,而且小目標和大目標 在圖像的語義上就存在差別,小目標更多的靠形態,大目標靠內部的結構。