Faster RCNN算法demo代碼解析

本文轉載自查看原文 2018-10-26 19:57 3385 計算機視覺

一、 Faster-RCNN代碼解釋

先看看代碼結構：

Data:

This directory holds (after you download them):

Caffe models pre-trained on ImageNet
Faster R-CNN models
Symlinks to datasets
demo 5張圖片
scripts 下載模型的腳本

Experiments：

logs
scripts/faster_rcnn_alt_opt.sh
cfgs/faster_rcnn_alt_opt.yml

存放配置文件以及運行的log文件，另外這個目錄下有scripts可以用end2end或者alt_opt兩種方式訓練。

Lib

用來存放一些python接口文件，如其下的datasets主要負責數據庫讀取，config負責cnn一些訓練的配置選項。

lib/rpn

這就是RPN的核心代碼部分，有生成proposals和anchor的方法

generate_anchors.py
生成多尺度和多比例的錨點。這里由generate_anthors函數主要完成，可以看到，使用了 3 個尺度( 128, 256,
and 512)以及 3 個比例(1:1,1:2,2:1)。一個錨點由w, h, x_ctr, y_ctr固定，也就是寬、高、x center和y center固定。

proposal_layer.py
這個函數是用來將RPN的輸出轉變為object
proposals的。作者新增了ProposalLayer類，這個類中，重新了set_up和forward函數，其中forward實現了：生成錨點box、對於每個錨點提供box的參數細節、將預測框切成圖像、刪除寬、高小於閾值的框、將所有的(proposal, score) 對排序、獲取 pre_nms_topN proposals、獲取NMS 、獲取 after_nms_topN proposals。（注：NMS，nonmaximum suppression，非極大值抑制）

anchor_target_layer.py
生成每個錨點的訓練目標和標簽，將其分類為1
(object), 0 (not object) ， -1 (ignore).當label>0，也就是有object時，將會進行box的回歸。其中，forward函數功能：在每一個cell中，生成9個錨點，提供這9個錨點的細節信息，過濾掉超過圖像的錨點，測量同GT的overlap。

proposal_target_layer.py
對於每一個object proposal 生成訓練的目標和標簽，分類標簽從0-k，對於標簽>0的box進行回歸。（注意，同anchor_target_layer.py不同，兩者一個是生成anchor，一個是生成proposal）

generate.py
使用一個rpn生成object proposals。
lib/nms文件夾

做非極大抑制的部分，有gpu和cpu兩種實現方式
py_cpu_nms.py
核心函數

lib/datasets文件夾
在這里修改讀寫數據的接口主要是datasets目錄下
（1）factory.py
（2）imdb.py
（3）pascal_voc.py
（4）voc_eval.py

lib/fast_rcnn文件夾
主要存放的是python的訓練和測試腳本，以及訓練的配置文件config.py
（1）config.py
（2）nms_wrapper.py
（3）test.py
（4）train.py

lib/roi_data_layer文件夾
主要是一些ROI處理操作
（1）layer.py
（2）minibatch.py
（3）roidb.py

lib/utils文件夾
（1）blob.py
（2）timer.py

lib/transform文件夾

Models

里面存放了三個模型文件，小型網絡的ZF，大型網絡VGG16，中型網絡VGG_CNN_M_1024。推薦使用VGG16，如果使用端到端的approximate joint training方法，開啟CuDNN，只需要3G的顯存即可。（1）fast_rcnn_test.pt
（2）rpn_test.pt
（3）stage1_rpn_train.pt
（4）stage1_fast_rcnn_train.pt
（5）stage2_rpn_train.pt
（6）stage2_fast_rcnn_train.pt

Tools

里面存放的是訓練和測試的Python文件。

_init_paths.py
用來初始化路徑的，也就是之后的路徑會join（path，*）

compress_net.py
用來壓縮參數的，使用了SVD來進行壓縮，這里可以發現，作者對於fc6層和fc7層進行了壓縮，也就是兩個全連接層。

demo.py
通常，我們會直接調用這個函數，如果要測試自己的模型和數據，這里需要修改。這里調用了fast_rcnn中的test、config、nums_wrapper函數。vis_detections用來做檢測，parse_args用來進行參數設置，以及damo和主函數。

eval_recall.py
評估函數

reval.py
re-evaluate，這里調用了fast_rcnn以及dataset中的函數。其中，from_mats函數和from_dets函數分別loadmat文件和pkl文件。

rpn_genetate.py
這個函數調用了rpn中的genetate函數，之后我們會對rpn層做具體的介紹。這里，主要是一個封裝調用的過程，我們在這里調用配置的參數、設置rpn的test參數，以及輸入輸出等操作。

test_net.py
測試fast rcnn網絡。主要就是一些參數配置。

train_faster_rcnn_alt_opt.py
訓練faster rcnn網絡使用交替的訓練，這里就是根據faster rcnn文章中的具體實現。可以在主函數中看到，其包括的步驟為：
RPN 1，使用imagenet model進行初始化參數，生成proposal，這里存儲在mp_kwargs
fast rcnn 1，使用 imagenet model 進行初始化參數，使用剛剛生成的proposal進行fast rcnn的訓練
RPN 2使用 fast rcnn 中的參數進行初始化（這里要注意哦），並生成proposal
fast rcnn 2，使用RPN 2 中的 model進行初始化參數，

train_net.py
使用fast rcnn，訓練自己數據集的網絡模型。

train_svms.py
使用最原始的RCNN網絡訓練post-hoc SVMs。

Outputs

這里存放的是訓練完成后的輸出目錄，默認會在faster_rcnn_end2end文件夾下。

我們對照官方的代碼分析一下工作流程:

主程序是root/py-faster-rcnn/tools/demo.py

#!/usr/bin/env python

# --------------------------------------------------------
# Faster R-CNN
# Copyright (c) 2015 Microsoft
# Licensed under The MIT License [see LICENSE for details]
# Written by Ross Girshick
# --------------------------------------------------------

"""
Demo script showing detections in sample images.
See README.md for installation instructions before running.
"""

import _init_paths  ##把root/py-faster-rcnn/lib文件的路徑添加到系統和
 ##root/py-faster-rcnn/caffe-fast-rcnn/python文件路徑添加系統 from fast_rcnn.config import cfg  ##導入config配置文件，配置文件里面以easydict形式來
 ##添加參數，分為三個部分（train，test，misc）
 ##比如添加閾值，設定圖片大小，是否開啟RPN from fast_rcnn.test import im_detect  ##對圖片進行resize，換成blobs，返回scores和boxes from fast_rcnn.nms_wrapper import nms
from utils.timer import Timer
import matplotlib.pyplot as plt
import numpy as np
import scipy.io as sio
import caffe, os, sys, cv2
import argparse

CLASSES = ('__background__',
           'aeroplane', 'bicycle', 'bird', 'boat',
           'bottle', 'bus', 'car', 'cat', 'chair',
           'cow', 'diningtable', 'dog', 'horse',
           'motorbike', 'person', 'pottedplant',
           'sheep', 'sofa', 'train', 'tvmonitor')

NETS = {'vgg16': ('VGG16',
                  'VGG16_faster_rcnn_final.caffemodel'),
        'zf': ('ZF',
                  'ZF_faster_rcnn_final.caffemodel')}


def vis_detections(im, class_name, dets, thresh=0.5):
    """Draw detected bounding boxes."""
    inds = np.where(dets[:, -1] >= thresh)[0]
    if len(inds) == 0:
        return

    im = im[:, :, (2, 1, 0)]
    fig, ax = plt.subplots(figsize=(12, 12))
    ax.imshow(im, aspect='equal')
    for i in inds:
        bbox = dets[i, :4]
        score = dets[i, -1]

        ax.add_patch(
            plt.Rectangle((bbox[0], bbox[1]),
                          bbox[2] - bbox[0],
                          bbox[3] - bbox[1], fill=False,
                          edgecolor='red', linewidth=3.5)
            )
        ax.text(bbox[0], bbox[1] - 2,
                '{:s} {:.3f}'.format(class_name, score),
                bbox=dict(facecolor='blue', alpha=0.5),
                fontsize=14, color='white')

    ax.set_title(('{} detections with '
                  'p({} | box) >= {:.1f}').format(class_name, class_name,
                                                  thresh),
                  fontsize=14)
    plt.axis('off')
    plt.tight_layout()
    plt.draw()

def demo(net, image_name):
    """Detect object classes in an image using pre-computed object proposals."""

    # Load the demo image
    im_file = os.path.join(cfg.DATA_DIR, 'demo', image_name)
    im = cv2.imread(im_file)

    # Detect all object classes and regress object bounds
    timer = Timer()
    timer.tic()
    scores, boxes = im_detect(net, im)
    timer.toc()
    print ('Detection took {:.3f}s for '
           '{:d} object proposals').format(timer.total_time, boxes.shape[0])

    # Visualize detections for each class
    CONF_THRESH = 0.8
    NMS_THRESH = 0.3
    for cls_ind, cls in enumerate(CLASSES[1:]):
        cls_ind += 1 # because we skipped background
        cls_boxes = boxes[:, 4*cls_ind:4*(cls_ind + 1)]
        cls_scores = scores[:, cls_ind]
        dets = np.hstack((cls_boxes,
                          cls_scores[:, np.newaxis])).astype(np.float32)
        keep = nms(dets, NMS_THRESH)
        dets = dets[keep, :]
        vis_detections(im, cls, dets, thresh=CONF_THRESH)

def parse_args():
    """Parse input arguments."""
    parser = argparse.ArgumentParser(description='Faster R-CNN demo')
    parser.add_argument('--gpu', dest='gpu_id', help='GPU device id to use [0]',
                        default=0, type=int)
    parser.add_argument('--cpu', dest='cpu_mode',
                        help='Use CPU mode (overrides --gpu)',
                        action='store_true')
    parser.add_argument('--net', dest='demo_net', help='Network to use [vgg16]',
                        choices=NETS.keys(), default='vgg16')

    args = parser.parse_args()

    return args

if __name__ == '__main__':
    cfg.TEST.HAS_RPN = True  # Use RPN for proposals

    args = parse_args() ##返回命令參數行，默認使用gpu和vgg16
    ##添加.pt文件，就是faster-rcnn的結構圖
    prototxt = os.path.join(cfg.MODELS_DIR, NETS[args.demo_net][0],
                            'faster_rcnn_alt_opt', 'faster_rcnn_test.pt')
    ##添加.caffemodel文件，就是訓練好的VGG16模型
    caffemodel = os.path.join(cfg.DATA_DIR, 'faster_rcnn_models',
                              NETS[args.demo_net][1])

    if not os.path.isfile(caffemodel):
        raise IOError(('{:s} not found.\nDid you run ./data/script/'
                       'fetch_faster_rcnn_models.sh?').format(caffemodel))

    if args.cpu_mode:
        caffe.set_mode_cpu()
    else:
        caffe.set_mode_gpu()
        caffe.set_device(args.gpu_id)  ##默認開啟0設備號的gpu
        cfg.GPU_ID = args.gpu_id
    net = caffe.Net(prototxt, caffemodel, caffe.TEST)  ##加載caffe網絡 print '\n\nLoaded network {:s}'.format(caffemodel)

    # Warmup on a dummy image
    im = 128 * np.ones((300, 500, 3), dtype=np.uint8)
    for i in xrange(2):
        _, _= im_detect(net, im)  ##使用(300, 500, 3)全為1的dummy圖片進行預檢測，保留網絡參數
    ##具體過程如下：
##對dummy圖片去均值，轉換數據類型，然后用線性插值法resize成im_scale=2倍的圖片，注意圖片大小
##不能超過（600，1000，3）的邊界。接着把（600，1000，3）形式的圖片或圖片集
##轉化成（1，600，1000，3）的blobs，這里blobs的初始格式是取圖片集的最大寬和高，且只有一張圖片。
##把blobs格式轉換成（1，3，600，1000）的形式;到這里為止，_get_image_blob返回blob和im_scale_factors=2.0
##_get_blobs返回dict形式的blobs和im_scale_factors，注意此時該blobs = {'data' : blob, 'rois' : None}
##上面的blobs就是我們要操作的最終dict;
##對該blobs添加blobs['im_info']欄，（600，1000，2），2是im_scales[0];
##將caffe網絡的data輸入項（1，3，224，224）reshape成 blobs['data']的形狀，即（1，3，600，1000）
##把dict形式的blobs（3欄）搬移到dict形式的forward_kwargs（2欄），去掉了rois欄
##然后把forward_kwargs送進net里面進行前向運行，輸出blobs_out;
##將net.blobs['rois'].data，即將訓練后rois層輸出的數據保存到rois，
##rois（104，5），將rois后四列縮小2倍回原來的圖片規格，即相當於映射前放大2倍，映射后縮小2倍
##對blobs_out['cls_prob']訓練后數據保存到scores，blobs_out['cls_prob']是使用softmax層訓練的結果;
##得到的是分類的概率。
##blobs_out['bbox_pred']訓練后數據保存到box_deltas，然后對boxes相對box_deltas進行轉換和裁剪;
##boxes是roi層前的特征，box_deltas是fast-rcnn最終層后的特征，一個輸入（104，5）一個輸出（104，84）;
##這里涉及到bounding box regression原理，具體細節看另外一篇博客，其實就是Foreground Anchors和GT的擬合靠近;
##上面注意boxes的后四列是框的四個點，而我們要轉化成中心坐標，因此損失函數為預測的中心坐標和實際的平方函數
##把預測的中心值轉換回boxes的形式，重命名為pred_boxes
##對pre_boxes進行裁剪，具體為負值變0，越界取邊界
##最后im_detect函數返回scores(104,21)和pred_boxes(104,84)

    im_names = ['000456.jpg', '000542.jpg', '001150.jpg',
                '001763.jpg', '004545.jpg']
    for im_name in im_names:
        print '~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~'
        print 'Demo for data/demo/{}'.format(im_name)
        demo(net, im_name)
##根據路徑加載要測試的圖片1(375,500,3)，利用cv讀取圖片1;
##利用timer進行計時，
##調用im_detect函數對圖片1進行分類和定位，即返回scores和boxes;預處理時把（375，500，3）reshape（600，800，3）
##打印對300個建議框進行檢測（分類和回歸）花費的時間;
##將4列box和1列類合並成5列，命名為dets;
##對每一個類進行nms（非極大值抑制）操作，nms的閾值為0.3，返回keep（內含26個數據的list），即26個框;
##dets取這26個框，然后調用vis_detections函數來畫圖;
##首先取分類得分大於0.5的行，如果沒有大於0.5的行則認為該圖不是類1，直接退出並進行類2的檢測;
##如果有大於0.5的行，則根據box的四個角畫出框和在框上標注類別和得分，注意CONF_THRESH = 0.8得分以上才畫出來;
##加載圖片2重復相應內容;

plt.show()

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Faster RCNN算法訓練代碼解析（1） tensorflow faster rcnn 代碼分析一 demo.py Faster rcnn代碼理解（3） Faster rcnn代碼理解（4）如何運行Faster RCNN的tensorflow代碼 MMDetection源碼解析：Faster RCNN(8)--BBoxHead類 A Simple Faster-RCNN 代碼理解學習 faster-rcnn代碼閱讀-proposal層（原）faster rcnn的tensorflow代碼的理解學習Faster R-CNN代碼faster_rcnn（八）