Detectron2源碼閱讀筆記-(一)Config&Trainer

本文轉載自查看原文 2019-10-15 13:11 6534 Pytorch/ detectron2/ detection/ 機器學習/ 代碼/ pytorch

代碼結構概覽

核心部分

configs：儲存各種網絡的yaml配置文件
datasets：存放數據集的地方
detectron2：運行代碼的核心組件
tools：提供了運行代碼的入口以及一切可視化的代碼文件。

Tutorial部分

demo：顯而易見就是demo
docs: 同樣顯而易見。。
tests：提供了一些測試代碼
projects：提供了真實的項目代碼示例，之后自己的代碼結構可參照這個結構寫。

代碼邏輯分析

超參數配置

進入tools/train_net.py的main函數，第一行cfg = setup(args)是配置參數。Detectron2中的參數配置使用了yacs這個庫，這個庫能夠很好地重用和拼接超參數文件配置。

我們先看一下detrctron2/config/的文件結構：

compat.py: 應該是對之前的Detectron庫的兼容吧，可忽略。
config.py: 定義了一個CfgNode類，這個類繼承自fvcore庫(fb寫的一個共公共庫，提供一些共享的函數，方便各種不同項目使用)中定義的CfgNode,總之就是不斷繼承。。。繼承關系是這樣的：
detrctron2.config.CfgNode->fcvore.common.config.CfgNode->yacs.config.CfgNode->dict
另外該文件還提供了get_cfg()方法，該方法會返回一個含有默認配置的CfgNode,而這些默認的配置值在下面的default.py中定義了，之所以這樣做是因為要配置的默認值太多了，所以為了文檔清晰才寫到了一個新的文件中去，不過，yacs庫的作者也建議這樣做。
default.py: 如上面所說，該文件定義了各種參數的默認值。

了解配置函數的方法后我們再回到tools/train_net.py，我們一行一行的來理解。

tools/train_net.py

from detectron2.config import get_cfg
from detectron2.engine import DefaultTrainer, default_argument_parser, default_setup, hooks, launch
...

def setup(args):
    """
    Create configs and perform basic setups.
    """
    cfg = get_cfg() 
    cfg.merge_from_file(args.config_file) 
    cfg.merge_from_list(args.opts)
    cfg.freeze()
    default_setup(cfg, args)
    return cfg

cfg = get_cfg()：獲取已經配置好默認參數的cfg
cfg.merge_from_file(args.config_file)：config_file是指定的yaml配置文件，通過merge_from_file這個函數會將yaml文件中指定的超參數對默認值進行覆蓋。
cfg.merge_from_list(args.opts)：merge_from_list作用同上面的類似，只不過是通過命令行的方式覆蓋。
例如

opts = ["SYSTEM.NUM_GPUS", 8, "TRAIN.SCALES", "(1, 2, 3, 4)"]
cfg.merge_from_list(opts)
print("cfg\n",cfg)

那么最后會有

cfg
... (一些默認值超參數)
SYSTEM:
	NUM_GPUS: 8
TRAIN:
	SCALES: (1,2,3,4)

cfg.freeze(): freeze函數的作用是將超參數值凍結，避免被程序不小心修改。
default_setup(cfg, args)：default_setup是detectron2/engine/default.py中提供的一個默認配置函數，具體是怎么配置的這里不詳細說明了。不過需要知道的值這個文件中還提供了很多其他的配置函數，例如還提供了兩個類：DefaultPredictor和DefaultTrainer。

Trainer

既然上面提到了DefaultTrainer，那么我們就從這個類入手了解一下detectron2.engine,其代碼結構如下：

train_loop.py: 這個函數主要作用是提供了三個重要的類：
- HookBase: 這是一個Hook的基類，用於指定在訓練前后或者每一個step前后需要做什么事情，所以根據特定的需求需要對如下四種方法做不同的定義：before_train,after_train,before_step,after_step。以before_step。
- TrainerBase: 該類中定義的函數可以歸納成三種：
  - register_hooks:這個很好理解，就是將用戶定義的一些hooks進行注冊，說大白話就是把若干個Hook放在一個list里面去。之后只需要遍歷這個list依次執行就可以了。
  - 第二類其實就是上面提到的遍歷hook list並執行hook，不過這個遍歷有四種，分別是before_train,after_train,before_step,after_step。還有一個就是run_step,這個函數其實就是平常我們在編寫訓練過程的代碼，例如讀數據，訓練模型，獲取損失值，求導數，反向梯度更新等,只不過在這個類里面沒有定義。
  - 第三類就是train函數，它有兩個參數，分別是開始的迭代數和最大的迭代數。之后就是重復依次執行第二類中的函數指定迭代次數。
- SimpleTrainer:其實就是繼承自TrainerBase,然后定義了run_step等方法。我們后面也可以繼承這個類做進一步的自定義。
defaults.py: 上面已介紹，提供了兩個類：DefaultPredictor和DefaultTrainer，這個DefaultTrainer就繼承自SimpleTrainer,所以存在如下繼承關系：
detectron2.engine.default.DefaultTrainer->detectron2.engine.train_loop.SimpleTrainer->detectron2.engine.train_loop.TrainerBase
hooks.py:定義了很多繼承自train_loop.HookBase的Hook。
launch.py: 前面提到過，可以理解成代碼啟動器，可以根據命令決定是否采用分布式訓練（或者單機多卡）或者單機單卡訓練。

好了，我們繼續回到tools/train_net.py的main函數,代碼如下所示。

def main(args):
    cfg = setup(args)

    if args.eval_only:
		...
    trainer = Trainer(cfg)
    trainer.resume_or_load(resume=args.resume)
    if cfg.TEST.AUG.ENABLED:
        trainer.register_hooks(
            [hooks.EvalHook(0, lambda: trainer.test_with_TTA(cfg, trainer.model))]
        )
    return trainer.train()

可以看到下面定義了一個Trainer,它繼承自detectron2.engine.default.DefaultTrainer，這個父類會自動解析cfg。之后只需要調用trainer.train()就可以開始訓練了。

小結

至此我們對detectron2的邏輯有了大致的了解了，那么接下來我們來了解一下detectron2.engine.default.DefaultTrainer是如何解析cfg的，這部分內容請參見Detectron2代碼閱讀筆記-(二)。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Detectron2 API 之 config | 十五 detectron2 配置記錄 Detectron2 部署簡單的訓練項目 Detectron2 代碼剖析（一） data 部分 [閱讀筆記]fsnotify源碼閱讀 Apollo源碼閱讀筆記（一） memcached 源碼閱讀筆記 detectron2 中的coco數據集默認位置更改 JDK源碼閱讀(4)：HashMap類閱讀筆記 JDK源碼閱讀(2)：String類閱讀筆記