模型的結構大致由圖可以完整展現,三個分類是否人臉的12、24、48net,再加上三個用於修正預測框的分類網絡;

這三個分類是否人臉的網絡,結構逐漸變復雜,
由上圖可以看出,前2階的網絡都非常簡單,只有第3階才比較復雜。這不是重點,重點是我們要從上圖中學習多尺度特征組合。
以第2階段的24-net為例,首先把上一階段剩下的窗口resize為24*24大小,然后送入網絡,得到全連接層的特征。同時,將之前12-net的全連接層特征取出與之拼接在一起。最后對組合后的特征進行softmax分類。

這三個網絡用於矯正人臉檢測框的邊界,往往得分最高的邊界框並非最佳結果,經過校准后其能更好的定位人臉,其矯正原理其實很簡單,
就是對原圖做45次變換,然后每個變換后的邊界框都有一個得分,對於得分高於某個設定的閾值時,將其累加進原邊界,最后結果取平均,就是最佳邊界框。
級聯的好處:
1.初始網絡不用設計很復雜,減小計算量,可以設置較寬松的閾值,保證高召回率的同時排除大量非人臉窗口;
2.第三個網絡雖復雜,為了保證足夠的性能,但是只需要處理之前網絡得到少量窗口,效率提升;
3.采用了多個弱分類器結合達到好效果。
