CascadeCNN人脸检测结构


模型的结构大致由图可以完整展现,三个分类是否人脸的12、24、48net,再加上三个用于修正预测框的分类网络;

这三个分类是否人脸的网络,结构逐渐变复杂,

由上图可以看出,前2阶的网络都非常简单,只有第3阶才比较复杂。这不是重点,重点是我们要从上图中学习多尺度特征组合。

以第2阶段的24-net为例,首先把上一阶段剩下的窗口resize为24*24大小,然后送入网络,得到全连接层的特征。同时,将之前12-net的全连接层特征取出与之拼接在一起。最后对组合后的特征进行softmax分类。

这三个网络用于矫正人脸检测框的边界,往往得分最高的边界框并非最佳结果,经过校准后其能更好的定位人脸,其矫正原理其实很简单,

就是对原图做45次变换,然后每个变换后的边界框都有一个得分,对于得分高于某个设定的阈值时,将其累加进原边界,最后结果取平均,就是最佳边界框。

 

级联的好处:

1.初始网络不用设计很复杂,减小计算量,可以设置较宽松的阈值,保证高召回率的同时排除大量非人脸窗口;

2.第三个网络虽复杂,为了保证足够的性能,但是只需要处理之前网络得到少量窗口,效率提升;

3.采用了多个弱分类器结合达到好效果。

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM