前言
自動駕駛、手勢控制、美顏相機
發展:
- 50-60s 看
- 70-90s 看懂
- 90s-2012 識別
- 2012++理解
傳統方法
直線檢測、形狀檢測
ADAS(Advanced Driver Assistant System)高級智能駕駛系統 見:ADAS系統-ADAS|車道偏離預警|前車碰撞預警|行人識別|3D高清全景 http://www.adas.cc/adas/#_20
ADAS的核心功能集中在前車碰撞預警(FCW)、車道偏離預警(LDW)、行人檢測預警(PCW)等。
檢測圓形:找到一個點到邊緣(由邊緣檢測來)的距離全部相等時,則判定區域覆蓋為圓形。
機器學習方法
特征+模型
CNN 卷積層,提取特征類似HOG、LBP、Haar
前面卷積和池化,提取特征
全連接FC,或softmax(本質是將邏輯回歸的二分類問題向多分類擴展),分類
卷積核(kernel、window)得到特征圖(feature map)
sliding window
原始圖滑窗很慢,改為在特征圖上滑窗就很快
滑窗大量重復信息
R-CNN(Regions with CNN features)
Region proposals 500-2000個可能區域。先類似K-means聚類,每一個可能存在東西的部分都進模型檢測
NMS 抑制掉周圍方塊
還是感覺R-CNN框太多了,還是無法實時。
RCNN 提取特征用的是神經網絡+SVM分類
Fast RCNN 特征+分類都是神經網絡
Faster RCNN ,Region proposals也用神經網絡(RPN尋找潛在region)
YOLO 圖像分成若干cell,只回歸一次,可將圖像中所有物體全都提取出來。非常先進、豪華。
bounding box 位置定位
x,y,w,h連續變量——>回歸(解決的是在哪)
偵測到物體在哪,畫個框
semantic segmantation
圖像語義分割
更精細,像素級
卷積:
上卷積(反卷積)
端對端
較新的技術:
MASK-RCNN 反卷積形成Mask
U-NET層數比較少,醫學圖像
【其他資料】
關於semantic segmentation的幾篇論文 - Marcovaldong的博客 - CSDN博客 https://blog.csdn.net/MajorDong100/article/details/78958656
計算機視覺之語義分割 http://blog.geohey.com/ji-suan-ji-shi-jue-zhi-yu-yi-fen-ge/