知乎問題:目標檢測領域還有什么可以做的?


參考鏈接:https://blog.csdn.net/Extremevision/article/details/86436596
種樹的左耳答案

飽和是相對於占坑來說的,對於去探索未來踩坑來說,目標檢測還遠遠沒有達到飽和的地步。只是說想發簡單的好論文越來越難了,並不是說不會有什么突破了。單就檢測來說,2018年頂會出的目標檢測論文也並不算少。

下面是我個人就目標檢測算法在深度學習領域未來研究的一些看法:

1.從專注精度的Faster RCNN、RFCN相關系列,以及專注速度的YOLO系列,未來的方向更專注於精度和速度的結合,這也是過去的很多模型在SSD系列上產生的原因,主要代表有RefineDet、RFBNet等。所以SSD系列的研究會成為主流。

2.目標選框從Region Based 和Anchor Based到基於角點,甚至是基於segmentation,包括semantic segmentation 和 instance segmentation 。今年比較有代表的CornerNet和Grid RCNN是一個開拓思路的方向,細節就不用說了吧。。。未來的目標選框方法依舊是研究的一個重要方向。

3.多尺度問題(尺度變換問題),目前常見的三種思路,采用專門設計的尺度變換模塊,可以參考STDN: Scale-Transferrable Object Detection。多個scale的目標檢測設計,沒記錯的話之前有在Faster RCNN基礎上,做多個scale的rpn。當然最新的SNIP也是多個RPN。還有就是SNIPER,先用SNIPER的模塊進行一個粗檢測,檢測出多個scale關注區域,然后再進行細檢測。目前的問題是,如果是才有scale transfer moudle的話,可能會丟失一些信息,也就是多scale融合學習存在問題,那么如何設計一個單scale模型transfer moudle進行有效學習,這一點我是存疑的,總感覺這個多scale融合哪里存在問題。同時,采用多scale的先初步多scale檢測再細檢測會增加計算時間,如何有效的將兩個模塊進行結合,進行進一步的再設計是未來一個重點。

4.重新思考目標檢測的訓練,凱明今年的新作Rethinking imagenet pre-training已經驗證了一個問題,pre-training再training和training from scratch這一點在目標檢測問題理論上也是適用的。當目標檢測數據集達到一定規模,目標選框問題是否可以單獨抽離出來,做好更精確的選框預訓練,再在具體的數據集上主要進行選框適應性訓練和分類訓練?另外由於目前的目標檢測backbone網絡都是從圖像分類網絡過來的,圖像分類網絡之前的提法是尺度不變性,而目標檢測有尺度變化性,今年清華的一篇文章就是做了這個問題,設計了一個專門針對目標檢測問題的backbone,但是還是基於ImgNet進行了預訓練,那么不在ImgNet進行預訓練是否可行?另外如何從一個小的數據集上進行一個轉向任務的無預訓練的學習 or 有預訓練的小規模數據學習訓練。目標檢測的小規模數據訓練是在實際工程應用中,尤其是工業化場景中一個比較需要關注的問題。

5.重新思考卷積神經網絡的旋轉不變性和尺度變化,有一些我在上面已經提到了,從一些論文的研究表明,卷積神經網絡的旋轉不變性似乎是一個偽命題,卷積網絡的旋轉不變性主要是通過數據的增強和大樣本的學習獲取的,本身應該不具備旋轉不變性。這個問題我看一些研究者提到過,我的感覺是應該是不具備旋轉不變性的,可能需要進行進一步的研究進行分析。旋轉不變性和尺度變化會影響目標檢測算法的基本框架。

6.目標檢測以及深度學習的分割、關鍵點檢測、跟蹤都需要在數據標注上耗費巨大的成本,如何采用算法進行更有效的標注是一個核心的問題,包括上面4中提到的如何用更少的樣本進行學習是關鍵。如果不能進行無監督的話,那么小規模數據的監督學習如何更有效進行訓練達到大幅度精度提升將會是研究的重點。還有就是采用單圖像單類別的弱標注,不進行選框標注,通過對大型目標檢測數據集進行預訓練,然后在這種單類單圖像場景進行弱監督多類檢測學習,進而泛化到多類單圖像檢測。

7.IOU的算法設計和閾值的選擇,今年比較有特點的是IOUNet和Cascade RCNN。

8.更好的NMS。

9.one shot learning,我看來一個樣本和小樣本的數據增強和學習,也會有一些有意思的研究。參考評論里面的提到的參考文章:LSTD:A Low-Shot Transfer Detector for Object Detection 發表在AAAI2018.

10.如何實現未知目標類的檢測,也就是我們常說的zero shot learning。從結合語義等信息從已知類別的目標檢測,遷移到對未知類別的目標進行檢測。參考論文Zero-Shot Object Detection(ECCV2018)。

11.如何從已經訓練的模型去遷移到新增數據、新增類別的學習,也就是增量學習(Incremental Learning)。可以參考的論文有Incremental Learning of Object Detectors without Catastrophic Forgetting(ICCV2017)目標檢測的論文以及End-to-End Incremental Learning(ECCV2018)。

12.CNN、Pooling、Loss 目前都有各種各樣的變體,更有效的CNN、Pooling、Loss依舊會出現

13.將目標檢測方法的一些研究遷移到SOT(Single Object Tracking)和MOT(Multiple Object Tracking),可以有效的觀察到今年表現比較好的SOT算法和MOT算法都有和檢測的結合出現。單目標跟蹤可參考商湯和中科院計算所的SiameseRPN:High Performance Visual Tracking with Siamese Region Proposal Network(CVPR2018)以及最新的SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks(剛剛發布)。多目標跟蹤可參考清華艾海舟組的REAL-TIME MULTIPLE PEOPLE TRACKING WITH DEEPLY LEARNED CANDIDATE SELECTION AND PERSON RE-IDENTIFICATION(CVPR2018)

14.目標檢測的FineGrained問題。

15.模型的輕量級化,從目前的輕量級網絡對於計算資源的壓縮上,主要是集中在對於backebone的壓縮,那么對於模型整體上針對目標檢測的考慮進行再設計是否可行?

16.大尺寸圖像的目標檢測問題,目前很多檢測的基本主要集中在512x512和1000x600左右的圖像操作,但是在未來,4k圖像和視頻會成為主流,大尺寸圖像的目標檢測、跟蹤都會成為主流,今年CVPR2018有一篇文章Dynamic Zoom-in Network for Fast Object Detection in Large Images是進行大尺寸圖像的目標檢測,主要是做的2k,設計了一個粗檢測和精細檢測的模塊。所以針對大尺度的圖像如何進行計算資源的壓縮、有效的目標檢測or跟蹤是一個非常有前瞻性的研究工作。尤其是未來的網絡電視劇、電影、短視頻會出現更多的4k內容。

17.AR場景下的跨類檢測融合,這個屬於我的想象,一個簡單的比如是AR眼鏡會跟人類的眼睛一樣的視野。那么在這個場景下對於視覺獲取內容的有效提取包括圖像里面就包括文字、商標、各類目標等等內容的融合檢測。

18.3d 激光雷達lidar和深度相機的目標檢測,在自動駕駛這一塊用的比較多,但是更精細的應用場景還是很多的,還有很多的應用場景比如裁判之類的要求更精細化的檢測(包括關鍵點檢測分割之類的)。

19.視頻流的檢測,主要是應用到移動端場景的手機或者FPGA。由於視頻流的圖片信息具有時間和空間相關性,相鄰幀之間的特城提取網絡會輸出有冗余的特征圖信息,會造成沒必要的計算浪費。同時圖片的目標檢測算法在目標物體運動模糊,拍攝焦距失調,物體部分遮擋,非剛性物體罕見變形姿態的情況下,很難獲得較為准確的結果。同時權衡精度、計算時間以及計算資源變得尤為重要。可參考論文包括Towards High Performance Video Object Detection for Mobiles(Arxiv Tech Report 2018)、Towards High Performance Video Object Detection(CVPR2018)、Fully Motion-Aware Network for Video Object Detection(ECCV2018),ECCV2018和CVPR2018都有兩三篇,主要貼一下Jifeng Dai的工作,其它就不貼了。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM