【轉】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection

本文轉載自查看原文 2019-04-08 16:35 874 video object detection

參考：https://mp.weixin.qq.com/s/Sq3dBuU8aY3Ug9NBZMc5lA

Motivation

物體在快速運動時，當人眼所看到的影像消失后，人眼仍能繼續保留其影像，約0.1-0.4秒左右的圖像，這種現象被稱為視覺暫留現象。人類在觀看視頻時，利用視覺暫留機制和記憶能力，可以快速處理視頻流。借助於存儲功能，CNN同樣可以實現減少視頻目標檢測的計算量。

視頻幀具有較高的時序冗余。如圖2所示，模型[1]提出使用兩個特征提取子網絡：Slow network 和Fast network。Slow network負責提取視頻幀的精確特征，速度較慢，Fast network負責快速提取視頻幀的特征提取，准確率較差，兩者交替處理視頻幀圖像。Fast network和Slow network特征經過ConvLSTM層融合並保存特征。檢測器在當前幀特征和上下文特征融合基礎上生成檢測框。論文提取基於強化學習策略的特征提取調度機制和需要保存特征的更新機制。

論文提出的算法模型在Pixel 3達到72.3 FPS，在VID 2015數據集state-of-art性能。

論文創新點：

1、提出基於存儲引導的交替模型框架，使用兩個特征提取網絡分別提取不同幀特征，減少計算冗余。

2、提出基於Q-learning學習自適應交替策略，取得速度和准確率的平衡。

3、在手機設備實現迄今為止已知視頻目標檢測的最高速度。

圖2 存儲引導的交錯模型

2 網絡架構

2.1交錯模型

圖3 交錯模型

如圖3所示論文提出的交錯模型（τ = 2），Slow network（Large featureextractor）和Fastnetwork(Small feature extractor)均由MobileNetV2構成(兩個模型的depth multiplier不同，前者為1.4，后者為0.35)，anchors比率限制為{1.0,0.5,2.0}。

2.2存儲模型

LSTM可以高效處理時序信息，但是卷積運算量較大，並且需要處理所有視頻幀特征。論文提出改進的ConvLSTM模型加速視頻幀序列的特征處理。

ConvLSTM是一種將CNN與LSTM在模型底層結合，專門為時空序列設計的深度學習模塊。ConvLSTM核心本質還是和LSTM一樣，將上一層的輸出作下一層的輸入。不同的地方在於加上卷積操作之后，為不僅能夠得到時序關系，還能夠像卷積層一樣提取特征，提取空間特征。這樣就能夠得到時空特征。並且將狀態與狀態之間的切換也換成了卷積計算。

圖4 存儲模型LSTM單元

如所示，論文的ConvLSTM有一下改進：

1、增加Bottleneck Gate和output跳躍連接。

2、LSTM單元分組卷積。特征圖HxWxN分為G組，每個LSTM僅處理HxWxN/G的特征，加速ConvLSTM計算。論文中G = 4。

3、LSTM有一固有弱點，sigmoid激活輸入和忘記門很少完全飽和，導致緩慢的狀態衰減，長期依賴逐漸喪失，更新中無法保留完整的前期狀態。導致Fast network運行中，Slownetwork特征緩慢消失。論文使用簡單的跳躍連接，既第一個Fast network輸出特征重復使用。

2.3推斷優化

論文提出基於異步模式和量化模型，提高系統的計算效率。

1、異步模式。交錯模型的短板來自於Slow network。論文采用Fastnetwork提取每幀圖像特征，τ = 2幀采用Slow network計算特征和更新存儲特征。Slownetwork和Fast network異步進行，提高計算效率。

2、在有限資源的硬件設備上布置性能良好的網絡，就需要對網絡模型進行壓縮和加速，其中量化模型是一種高效手段。基於[2]算法，論文的ConvLSTM單元在數學運算（addition,multiplication, sigmoid and ReLU6）后插入量化計算，確保拼接操作的輸入范圍相同，消除重新縮放的需求。

3 實驗

模型在Imagenet DET 和COCO訓練，在Imagenet VID 2015測試結果如圖5所示。

從測試結果看，系統只有Slow network模塊時准確率最高，只有Fast network模塊時准確率最低。另外基於強化學習的adaptive對精度和速度幾乎沒有影響，而異步模式和模型量化提高系統的實時性。

圖5 Imagenet VID 2015測試結果

4 優缺點分析

視頻處理策略

1、基於強化學習的交錯模型調度是偽命題。論文的Slow network提取強特征，Fastnetwork提取弱特征，交錯模型的τ越大，模型性能越差。理論上τ=2時模型的准確率越高。綜合考慮准確率和實時性，論文中τ=9。

2、視頻具有很強的上下文相關性。視頻理解領域的目標檢測、分割、識別，跟蹤，等領域，都需要提取前后幀的運動信息，而傳統采用光流方式，無法保證實時性。本文提出的分組ConvLSTM，可加速計算，量化模型保持准確率，具有借鑒意義。

附錄：

華為mate8使用麒麟950的CPU，相當於高通驍龍820；

pixel 3使用高通驍龍845的CPU。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 論文簡讀:Memory-guided Unsupervised Image-to-image Translation Progressive Sparse Local Attention for Video object detection 論文筆記《Spatial Memory for Context Reasoning in Object Detection》 object detection[YOLOv2] RL^2: Fast Reinforcement Learning via Slow Reinforcement Learning Google Object detection配置與使用 Object Detection · RCNN論文解讀 Slow ReadProcessor&Error Slow BlockReceiver錯誤日志分析(轉) GradNet: Gradient-Guided Network for Visual Object Tracking閱讀筆記論文閱讀 | CenterNet：Object Detection with Keypoint Triplets