作者:小毛
來源:公眾號@3D視覺工坊
鏈接: 基於點雲的機器人抓取識別綜述
機器人作為面向未來的智能制造重點技術,其具有可控性強、靈活性高以及配置柔性等優勢,被廣泛的應用於零件加工、協同搬運、物體抓取與部件裝配等領域,如圖1-1所示。然而,傳統機器人系統大多都是在結構化環境中,通過離線編程的方式進行單一重復作業,已經無法滿足人們在生產與生活中日益提升的智能化需求。隨着計算機技術與傳感器技術的不斷發展,我們期望構建出擁有更加靈敏的感知系統與更加智慧的決策能力的智能化機器人系統。
圖1-1 機器人的應用領域
圖1-2 機器人抓取的操作流程與步驟
機器人抓取與放置是智能化機器人系統的集中體現,也是生產與生活中十分重要的環節,近幾年來在工業界與學術界得到了深入而廣泛的研究。具體的機器人抓取可以分為視覺感知部分與機器人抓取操作部分。視覺感知部分又包含:模型與場景表征、目標識別與定位這兩個步驟;而機器人抓取操作部分則包含:系統標定、運動控制與抓取規划等步驟,如圖1-2所示。這其中,機器人通過視覺傳感器感知環境並實現對目標物體的識別與定位,也就是視覺感知部分,是十分重要的環節,其直接決定了后續機器人的抓取精度。
圖1-3 二維圖像的部分缺陷
受益於計算機算力的不斷提高以及傳感器成像水平的高速發展,目前針對結構化環境或者半結構化環境中,基於二維圖像的機器人平面單目標物體的抓取技術已經趨於成熟,並取得了豐富的研究成果[1][2][3]。然而,對於現實復雜環境中的三維物體,僅使用二維信息對三維目標進行表征,會不可避免的造成信息損失,如圖1-3所示,從而難以實現非結構化環境中機器人對於多目標物體的高精度抓取操作。因此,如何提升機器人的視覺感知能力,並基於此在復雜環境中自主完成對目標物體的識別、定位、抓取等操作是一個很有價值的研究問題。
近年來,隨着低成本深度傳感器(如Intel RealSense、Xtion以及Microsoft Kinect等)與激光雷達的飛速發展,如圖1-4所示,三維點雲的獲取越來越方便。這里的點雲實際上就是在相機坐標系下,對所拍攝的物體或者場景表面進行點采樣。物體對應的點雲數據在在數學上可以簡單的理解為三維坐標的無序集合。三維點雲數據相對於平面二維圖像具有如下優勢:(1)可以更加真實准確的表達物體的幾何形狀信息與空間位置姿態;(2)受光照強度變化、成像距離以及視點變化的影響較小;(3)不存在二維圖像中的投影變換等問題。三維點雲數據具有的以上優勢使得其有望克服平面二維圖像在機器人目標識別與抓取中存在的諸多不足,所以其具有很重要的研究意義以及廣泛的應用前景。因此,近年來針對點雲的視覺研究以及基於點雲的機器人抓取成為了機器人領域新的研究熱點。
圖1-4 點雲獲取設備示意圖
對應前文的,在基於點雲的機器人抓取可以分為點雲特征描述(模型與場景表征)、三維目標識別(目標識別與定位)與機器人抓取操作這三個部分[39][40]。進一步的,點雲特征描述指的是,將模型與場景對應的無序點集通過特定的算法編碼為低維的特征向量,用此來表征對象的局部或者全局信息,其應當具有足夠的描述力與穩定性。三維目標識別則主要是指,利用模型與場景的表征結果,在場景中識別出目標物體,並估計出其對應的位置與姿態。對於特征描述與目標識別,盡管現有文獻提出了不少算法,並且在特定的環境中取得了不錯的效果,然而如何在包含噪聲、干擾、遮擋與密度變化的復雜非結構化環境中提取有效而穩定的特征,實現對多目標物體的准確識別定位以及高精度抓取,仍然是極富挑戰性的一個問題[4]。
綜上所述,基於點雲的機器人抓取作為智能化機器人系統的集中體現,近幾年來得到了工業界和學術界的廣泛關注,並圍繞點雲特征描述、三維目標識別與機器人抓取操作這三個方面展開了深入研究。具體的,在點雲特征描述部分,主要關注描述子的鑒別力、魯棒性、計算效率與緊湊性等性能;在三維目標識別部分,主要關注目標的識別准確率與定位精度問題;而在機器人抓取操作部分,抓取系統的參數標定與多目標物體的數據分析都是很重要的環節。
1.1國內外研究現狀
受益於點雲數據自身的優勢、計算機算力的不斷提高與傳感技術的不斷發展,基於點雲的機器人抓取成為了機器人領域新的研究熱點,具有十分誘人的研究價值與應用前景。近年來,學術界與工業界圍繞基於點雲的機器人抓取,在點雲特征描述、三維目標識別與機器人抓取操作這三個方面展開了廣泛而深入的研究,取得了顯著進展,下面分別從上述三個方面進行文獻綜述。
1.1.1點雲特征描述
點雲特征描述在機器人抓取中主要是應用於視覺感知部分的模型與場景表征。一種合格的特征描述算法應該有較高的描述力來表征對應的局部點雲表面。此外,此外其還應該對於點雲噪聲、表面孔洞、部分遮擋、視點改變以及分辨率變化等穩健[4],如圖1-5所示。
圖1-5 點雲場景存在的挑戰
現有的特征描述算法可以分為全局特征和局部特征兩大類[5]。全局特征采用模型的整體幾何信息構建得到,典型代表有Osada等[6]提出來的Shape distribution描述子,Wahl等[7]提出來的SPR(Surflet-pair-relation)描述子以及Funkhouser等[8]提出來的Spherical harmonics描述子。全局描述子擁有較高的計算效率和分類能力,但是其對於遮擋比較敏感,很難用於目標識別和精確定位[9]。鑒於此,局部點雲的概念被提出,局部特征描述算法得到了深入的研究和廣泛的關注。其首先提取關鍵點建立局部鄰域,根據鄰域內各點的空間分布信息和幾何特征構建描述矩陣。局部描述子對於背景干擾和遮擋魯棒,相比於全局描述子更適合用於非結構化環境中的目標識別[4][10]。
圖1-6 部分局部描述算法示意圖
局部描述算法又可以根據有無建立局部參考坐標系(Local Reference Frame, LRF)進行分類[11]。不依賴LRF的特征描述子都是使用局部幾何信息的統計直方圖或者信息量來構成特征矩陣[12]。例如,Johnson等[13]提出了Spin image描述算法,如圖1-6(a),它首先以關鍵點的法線作為參考軸,用兩個參數對關鍵點的每個鄰域點進行編碼,然后根據這兩個參數將局部鄰域點進行分箱,進而生成一個二維直方圖。Spin image描述子已經成為了三維特征描述子評估體系的實驗基准[4][14]。但是,其存在諸如對數據分辨率變化和非均勻采樣敏感等缺陷[15]。Rusu等[16]提出了PFH(Point Feature Histogram)描述算法:其對於關鍵點鄰域內的每一個點對,首先建立Darboux框架,然后采用[7]中的方法計算由法向量和距離向量得到的四個測量值,最后將所有點對的測量值進行累加生成一個長度為16的直方圖,如圖1-6(b)。為了降低計算復雜度,Rusu[17]等僅將關鍵點與其鄰域點之間的測量值進行累加,隨后進行加權求和得到FPFH(Fast-PFH),如圖1-6(c)。FPFH保留了PFH的絕大部分鑒別信息,但是其對於噪聲敏感[5]。目前絕大多不依賴於LRF的描述子僅利用了點雲的部分幾何特征,而很難編碼局部空間分布信息,因而其都鑒別力不強或者魯棒性較弱[15]。
對於建立了局部參考坐標系的描述子,則利用定義的LRF來同時對空間分布信息和幾何特征進行編碼以提高其鑒別力和魯棒性[18]。例如,Tombari等人[19]首先利用加權主成分分析(PCA)的方法為關鍵點構建了一個局部參考坐標系,進而在該LRF下將關鍵點對應的球形R-近鄰空間進行柵格化處理,然后依據關鍵點法線與落入每一個子單元的點法線間的夾角將這些點累積到一個數據統計直方圖中,最后串聯各個直方圖便獲得SHOT(Signatures of Histograms of Orientation)特征,如圖1-6(d)。SHOT計算效率高,但是對於分辨率變化敏感[5]。Guo等[18]通過計算局部表面對應散布矩陣的特征向量來建立LRF,然后利用旋轉投影的方法對三維點集進行降維並建立分布矩陣,之后提取分布矩陣的信息量生成最后的RoPS(Rotational Projection Statistics)描述子。RoPS有着優越的綜合性能[5],但是其只能用於mesh網格文件,也就是說其無法作用於原始的xyz點雲數據[20]。並且,其將數據投影到了二維平面會造成較大的信息損失[21]。之后,Guo[15]在RoPS的LRF算法基礎上進行改進,提高了穩定性,然后在坐標系的每一個參考坐標軸上求取局部鄰域的Spin Image特征,串聯組成Trisi(Triple-Spin Image)局部特征描述子,如圖1-6(e)。基於LRF的局部描述算法的鑒別力和魯棒性很依賴於所建立的局部參考坐標系的可重復性與穩定性,如果坐標系存在輕微的偏差,會對最終的描述向量造成嚴重的影響[22],如圖1-7。然而,目前已有的局部坐標系算法存在可重復性差或者方向歧義的問題[23]。
綜上所述,對於不建立局部參考坐標系的特征描述子,由於不能融入空間分布信息,普遍存在鑒別力不高、對於噪聲比較敏感等問題;而擁有局部參考坐標系的特征描述子的描述力和魯棒性則主要依賴於所對應的坐標系建立算法,然而目前已有的坐標系建立方法均存在可重復性差或者方向歧義的問題[22],相應的特征提取算法在鑒別力、魯棒性與計算效率方面依然有提升的可能[5]。
圖1-7 LRF的誤差影響
1.1.2三維目標識別
在基於點雲的機器人抓取領域,完成了模型與場景的表征,下一步則是進行目標識別與定位,也就是在點雲場景中對待抓取模型進行三維目標識別以及對應的姿態估計。現有的三維目標識別算法主要包括基於局部特征的算法、基於投票的算法、基於模板匹配的算法以及基於學習的方法[24][25]。
基於局部特征的目標識別算法則主要分成五個部分:關鍵點檢測、特征提取、特征匹配、假設生成、假設檢驗[26][27]。在這里關鍵點檢測與特征提取組合對應的就是進行模型與場景表征。由於點雲的點集數量巨大,如果對每個點都進行特征提取則會造成計算機算力不足的情況,因此會在原點雲中提取稀疏而區分度高的點集作為關鍵點。關鍵點應當滿足可重復性和獨特性這兩個重要屬性[28]。前者涉及的是在各種干擾下(噪聲、分辨率變化、遮擋與背景干擾等)可以精確提取相同關鍵點的能力;而后者則是指提取的關鍵點應當易於描述、匹配與分類[29]。在點雲領域,經典的關鍵點提取算法包括Harries 3D[30],ISS(Intrinsic Shape Signature)算法[31],NARF(Normal Aligned Radial Feature)算法[32]。特征提取部分則主要是在物體表面提取穩固的局部特征,詳見本章1.3.1部分的討論。
特征匹配的作用則是建立一系列的關鍵點特征對應關系,如圖1-8所示。經典的特征匹配算法有最近鄰距離比值(NNDR)、閾值法、最近鄰策略(NN)等[33]。論文[33]則表明NNDR與NN的匹配算法優於閾值法的匹配效果,NNDR亦是目前使用最多的匹配策略[34]。為了降低計算復雜度,一般都會使用高效的搜索算法來優化特征匹配,使其快速地找到場景特征庫中與當前特征對應的k近鄰特征。常用搜索算法包括k-d樹[35]、局部敏感樹[31]、哈希表[36]與二維索引表[37]等。
圖1-8 局部特征匹配過程示意圖
假設生成部分則主要是利用匹配上的特征對集合找出在場景中可能的模型位置,並建立對應的姿態估計(即計算變換假設)[38]。值得注意的是,在匹配上的特征對集合中,既會存在正確的特征對,也會有大量有誤差的特征對。因此在計算變換假設的時候,需要使用有效的算法策略盡可能的剔除錯誤特征對,從而得到較為准確的模型與場景間的變換關系。這一部分的方法主要包括隨機一致性采樣(RANSAC)、姿態聚類、幾何一致性以及擴展霍夫變換等。RANSAC算法首先隨機選取k組特征對來計算模型到場景間的變換矩陣(這里k為生成一個變換矩陣所需要的最少特征對數量),並統計滿足這個變換矩陣的點對數量。使用這個算法的論文包括[38][39][40]。姿態聚類算法則認為當模型在場景中被正確識別后,大多數模型與場景對齊的假設生成變換矩陣都應當在真實的位姿矩陣(ground truth)附近。使用這個算法的論文包括[31][41][42]。幾何一致性技術則認為如果特征對不滿足幾何約束關系則會使得估計出來的變換矩陣有較大的誤差,所以希望使用幾何約束來剔除誤差較大的匹配點對,進而提高生成的變換矩陣的准確性。使用該算法的論文包括[13][43][44]。擴展霍夫變換則是利用特征對間的平移和旋轉等參數構成廣義的霍夫空間,然后進行投票統計。這個廣義的參數化霍夫空間中的每一個點都對應模型與場景間的一組變換關系,空間中的峰值點被認為是模型到場景變換矩陣估計的最優解。采用這種算法的論文包括[45][46][47]。
圖1-9 基於特征提取的目標識別流程圖
假設檢驗部分則是為了得到假設生成部分所計算出來的潛在變換關系中真正正確的變換矩陣。Hebert與Johnson[13][48]采用模型與場景的對應點數和模型總點數的比值作為相似度參數。當相似度大於設定的閾值時,則認為當前的變換矩陣是正確的。Main[49]則采用特征相似度與點雲匹配精度作為綜合評價指標。Bariya[43]首先計算出模型與場景的交疊面積,並將模型可見面積和重疊面積的比值作為相似度度量。Papazov[40]則提出了一個包含懲罰項和支持項的接收函數用於評估建設生成的姿態變換質量。Aldoma[44][26]則建立了場景到模型的擬合、模型到場景的擬合、遮擋關系以及不同模型間的關聯這幾個條件建立了一個代價函數,然后通過求取這個函數的極小值來獲得理論上最優的變換姿態。
圖1-10 PPF投票算法示意圖
基於投票的三維目標識別算法則是直接匹配模型與場景間的固有特性,生成有限的候選姿態集后,利用先驗條件構造支持函數與罰函數並對每一個姿態進行投票,進而得出最優的變換矩陣。Drost等人[41]提出了用於目標識別的點對特征(Point Pair Features, PPF),這也是三維目標識別領域的經典算法,算法原理如圖1-10所示。其利用了點對間最為朴素的特征:距離與法線夾角,構造出有四個參數的特征數組;然后結合哈希表進行窮舉匹配,利用高效的投票方案得出最優的姿態估計。Kim等人[50]則在原始PPF特征中加入了可見性特征(空間、表面與不可見表面),增強了PPF的匹配能力。Choi等人[51]在此基礎上提出了對點對特征進行分類的策略,如邊界上的點對或者是由邊緣點組成的點對等。利用這種分類方法可以減少訓練和匹配的特征數量,加快了匹配速度以及投票效率。此外,Choi等人[52]還在PPF的點對特征上加入了顏色分量,創建了Color-PPF,實驗結果表明其識別率明顯提高。隨后,Drost等人[53]又提出了利用幾何邊緣(邊界和輪廓)來計算PPF,這種算法顯著改進了在高度遮擋場景中的識別率。Birdal等人[54]則提出了先對場景進行分割,在進行PPF匹配的識別策略。更進一步的,Hinterstoisser等人[55]針對PPF提出了一種新的采樣方法以及一種新的姿態投票方案,使得這種算法對噪聲和背景干擾更加穩健。Tejan等人[56]則從RGB-D圖像中訓練了一個霍夫森林,在樹中的葉子上存儲着目標識別6D姿態的投票。
圖1-11 基於模板匹配的目標識別流程
基於模板匹配的目標識別算法則主要是針對無紋理物體的檢測。其利用已有的三維模型從不同的角度進行投影,生成二維RGB-D圖像后再生成模板;然后將所有的模板與場景匹配,進而得出最優的模型位姿,算法原理如圖1-11。Hinterstoisser等人[57]提出了經典的Linemod算法,其結合了彩色圖像中的梯度信息再結合深度圖像中的表面法線信息生成圖像模板,在場景圖像中利用滑窗搜索的方式進行模板匹配。Hodan等人[58]提出了一種實用的無紋理目標檢測方法,也是實用滑動窗口的模式,對於每個窗口進行有效的級聯評估。首先通過簡單的預處理過濾掉大部分位置;然后對於每一個位置,一組候選模板(即經過訓練的對象視圖)通過哈希投票進行識別;最后通過匹配不同模式下的特征點來驗證候選模板進而生成目標的三維位姿。
基於學習的方法,Brachmann等人[59]提出的基於學習的目標識別算法,對於輸入圖像的每一個像素,利用其提出的回歸森林預測待識別對象的身份和其在對象模型坐標系中的位置,建立所謂的“對象坐標”。采用基於隨機一致性采樣算法的優化模式對三元對應點對集進行采樣,以此創建一個位姿假設池。選擇使得預測一致性最大化的假設位姿作為最終的位姿估計結果。這個學習模型在論文[60]中得到了多種擴展。首先,利用auto-context算法對於隨機森林進行改進,支持只是用RGB信息的位姿估計;其次,該模型不僅考慮已知對象的位姿,同時還考慮了沒有先驗模型庫的目標識別;更多的,其使用隨機森林預測每一個像素坐標在目標坐標系上的完整三維分布,捕捉不確定性信息。自從深度卷積神經網絡(DCBB)[61]提出以來,基於深度學習的方法近年來變得十分流行,例如RCNN[62],Mask-RCNN[63],YOLO[64]與SSD[65]等。最近的綜述論文[66]對於這些算法進行了詳細的闡述和比較。
綜上所述,在目前已有的目標識別算法中,基於幾何一致性與隨機一致性采樣的管道方法存在組合爆炸的問題,其對應的計算復雜度為O(n3);而基於點對特征的目標識別方案則會由於法線方向的二義性問題造成識別的准確率下降,並且其對應的計算復雜度為O(n2);基於模板匹配的目標識別算法(Linemod)則存在對於遮擋敏感等問題。雖然各種算法在特定的數據集上都取得了不錯的效果,但是在非結構化環境中的目標識別准確率依然有較大的提升空間。
1.1.3機器人抓取操作
基於點雲的機器人抓取主要包含視覺感知部分與機器人抓取操作部分。機器人抓取操作部分則又包括系統標定、抓取規划與運動控制。
系統標定包括主要是指對相機與機器人的標定。由於對於視覺感知部分求出的待抓取目標物體的位置與姿態均處於相機坐標系下,為了進行機器人准確抓取,需要將其坐標與姿態變換到機器人坐標系下。這里便需要將相機與機器人進行手眼標定。手眼標定主要求取相機坐標系與機器人基坐標系間的變換關系[67],主要可以分為相機在手上的標定與相機在手外的標定。此外,對於相機,使用時需要進行內參的校准,畸變系數的求取等[68][69];如果是雙目立體視覺,則還包含對於雙目相機的參數標定[70];如果是結構光或ToF(Time of Flight)成像的點雲相機,則還要進行深度校准,以及彩色圖與深度圖的匹配對齊等操作[71][72][73]。對於機器人,如果是多機器人協同抓取,則組要進行多機器人基坐標系間的標定[74]。
而對於抓取規划部分,其主要作用是可以實現對於場景中目標物體的抓取點的提取[75]。如論文[76]所述,抓取策略應當確保穩定性,任務的兼容性和對於新物體的適應性等;此外,抓取質量可以通過對物體接觸點的位置和末端夾爪的配置來進行評價[77]。對於物體的抓取,目前主要有基於經驗的方法與基於端到端的方法。
基於經驗的方法則是根據特定的任務和抓取對象的幾何形狀,使用與之相對應的算法來進行抓取。更具體的又可以分為對已知物體的抓取和對相似物體的抓取[78]。如果抓取對象是已知的物體,那么則可以通過學習已有的成功抓取實例,再結合具體環境進行機器人抓取。事實上,如果目標對象已知,則意味着對象的三維模型和抓取點位置在數據庫中也是先驗已知的。這種情況下,只需要從局部視圖估計目標對象的6D位姿,並通過ICP等算法進行姿態細化與精確微調,進一步便可以得到目標物體的抓取位置。這是目前已知的抓取系統中最流行的方法,也是在亞馬遜抓取挑戰賽[79]中普遍使用的算法。Zeng等人[79]提出了一種利用全卷積神經網絡對一個場景的多個視圖進行分割和標注,然后將預掃描的三維目標模型與分割結果進行匹配,得到6D目標位姿。他們的方法在2016年APC抓取挑戰任務中獲得了第三名和第四名。Billings和Johnson-Roberson[80]提出了一種利用卷積神經網絡的管道算法,其可以同時完成目標姿態估計和抓取點選擇。該管道算法作用於感興趣區域(ROI),預測出一個中間輪廓來估計目標位姿;然后從先驗的數據庫中生成抓取點。對於這種方法,當有准確的三維模型是,可以通過估計出6D姿態后進行准確的抓取,由於擁有較高的抓取精度,是目前比較流行的抓取方法。然而,當三維模型不太准確時,如物體不可測量或者易變形等情況,則會導致有較大的抓取偏差。
圖1-12 局部抓取規划方法
事實上,很多情況下,抓取的目標對象與現有數據庫的模型並不完全相同,但是在模型庫中相似的同一類的物體,這便涉及到對相近物體的抓取。在目標對象被定位以后,利用基於關鍵點對應算法便可以將抓取點從模型庫中存在的相似三維模型上轉移到當前的局部對象中。由於當前的目標對象與數據庫中的對象不完全相同,所以這類型的抓取算法是不需要進行六維姿態估計的。Andrew等人[81]提出了一種基於分類法的方法,該方法將對象划分為各個類別,每個類別均存在對應的抓取規范。Vahrenkamp等人[82]提出了一種基於局部的抓取規划方法,用於生成適用於多個已知目標對象的抓取,根據物體的形狀和體積信息對物體模型進行分割,並對目標零件標記語義信息和抓取信息。其還提出了一種抓取可轉移性的度量方法,用於評估在同一對象類別中的新物體的抓取成功率,如圖1-12所示。Tian等人[83]提出了一種將抓取構型從先前的示例對象轉移到新目標上的方法,該方法假設新對象和示例對象具有相同的拓撲結構和相似的形狀。他們考慮幾何形狀和語義形狀特征對對象進行三維分割,利用主動學習算法為示例對象的每個部分計算一個抓取空間,並為新對象在模型部分和相應的抓取之間建立雙射接觸映射。這一類型的方法依賴於目標分割的准確性。然而,訓練一個能識別出廣泛對象的網絡並不容易。同時,這些方法要求待抓取的三維物體與標注模型相似,以便找到相應的抓取模型。在經常發生遮擋的雜亂環境中,計算高質量的物體抓取點也是一個挑戰。
圖1-13 不同的抓取方案示意圖
端到端的抓取檢測則直接跳過了對於抓取目標的定位,直接從輸入的圖像中提取抓取點位置。在這類方法中,滑動窗口策略是比較常用的方法。Lenz等人[84]提出了一個兩步級聯系統,該系統具有兩個深度網絡,第一步的頂部檢測結果由第二步重新評估。第一個網絡具有更少的特性,運行速度更快,並且可以有效地剔除不可能的候選項。第二個具有更多的特性,速度較慢,但只能在少數幾個檢測到的信號上運行。盡管他們達到了很高的精度,但是迭代掃描使過程非常緩慢。Ten Pas等人[85]提出了一種無需對目標物體進行精確分割即可在任何可見表面生成抓取假設的方法。他們還提出了一種新的包含表面法線和多個視圖的抓取描述符。但是,由於沒有執行實例級分段,因此這種算法會將多個對象視為同類物體。由於均勻網絡的性能優於雙級聯系統[84],越來越多的單級方法被提出。Guo等人[86]提出了一種共享卷積神經網絡來進行對象發現和抓取檢測。Pinto和Gupta [87]提出了一種通過試錯預測抓取位置的方法,他們訓練了一個基於CNN的分類器來估計給定一個輸入圖像塊的不同抓取方向的抓取可能性。Chu等人[88]提出了一個由抓取區域建議組件和機器人抓取檢測組件組成的網絡。對於端到端抓取檢測方法,計算出的抓取點可能不是全局最優的抓取點,因為在圖像中只有部分對象是可見的。
對於機器人抓取中的運動控制這一部分,其主要是設計從機械手目標物體抓取點的路徑,這里面的關鍵問題就是運動表征。雖然從機械手到目標抓取點的軌跡是無限多的,但是由於機械臂的局限性,很多地方都無法達到。因此,軌跡需要規划。
軌跡規划主要有有三種方法,分別是傳統的基於DMP的方法、基於模仿學習的方法和基於強化學習的方法,如圖1-14所示。傳統的方法考慮運動的動態性,生成運動原語。動態運動原語(Dynamic Movement Primitives, DMPs)[89]是最流行的運動表示形式之一,可以作為反饋控制器。DMPs對應的原語是行為單位,或者說是魯棒的吸引子系統,其實非線性的。在算法中將運動學對應的控制策略按照規則編碼為非線性微分方程組,方程組的目標就是吸引子[90]。DMPs已成功地應用於強化學習、模仿學習、以及動作識別等領域。Colome等人[91]的論文則是通過降維(線性)在學習潛在關節耦合過程的同時也進行擁有DMP特征的機器人運動,這實際上是很有價值的研究,因為這樣就直接提供了這種運動的最直觀的數學描述。Pervez和Lee[92]的論文提出了一個將DMP中的強迫項對應的任務參數化進行建模的數學模型。Li等[93]對應的論文則給出了一種基於高斯混合模型(GMM)和DMP的機器人強化版教學界面模型。所采集的這些動作是通過使用深度攝像頭Kinect v2傳感器從對應的人體演示者身上采集,采用高斯混合模型(GMM)算法進行DMPs的計算,然后對運動進行建模和泛化。Amor等[94]的論文則描述了一種基於人體動作演示的模仿學習算法,主要是用於機器人學習和運用人體的抓取技能。他們將人類的抓取動作分解為三個部分:從人的教學演示中提取有效的物體抓取策略方法,將抓取策略對應的抓取點遷移到新的待抓取物體上,對抓取動作進行優化。使用他們的方法可以很容易的在機器人中加入新的抓取類型,因為用該算法使用者只需給出一組抓取實例。
在抓取過程中,由於空間有限以及障礙物等原因,會阻礙機器人接近目標物體。這需要機器人與環境進行交互。在這種需要進行避障的抓取任務中,最常見的軌跡規划方法是以抓取對象為中心建模的算法[95],它將目標和環境分離開來。這種方法在結構化或半結構化的環境中工作得很好,因為對象被很好地分隔開了。還有一種以障礙物為中心的方法[96],它利用動作原語與多個對象進行同步聯系。通過這種方法,機器人可以在接觸和移動目標的同時抓住目標,以清除所需的路徑。進一步的,Zeng等人[97]提出了一種更為優越的方法,其采用了無模型的深度強化學習策略來提取抓與推之間的關系。他們的方法中包含了兩個卷積神經網絡,行為動作與視覺感知。這兩個網絡是在Q-learning框架下聯合訓練的,完全是通過嘗試和錯誤的自我監督,成功掌握后會獲得獎勵。通過仿真和真實場景下的抓取實驗,他們的系統可以快速地學習復雜的行為,在存在障礙物的情況獲得更高的抓取成功率和效率。
圖1-14 典型的軌跡規划方法
從國內外研究現狀可知,對於機器人領域中的特征提取、目標識別與機器人抓取等方面均有一些熱點問題需要解決。具體的,在特征提取算法方面,鑒別力、魯棒性與計算效率方面依然有提升的可能;在目標識別與機器人抓取方面,在具有噪聲、背景干擾與分辨率變化的非結構化環境中的識別率與抓取的精度不夠理想。各個具體問題雖然均由大量的算法被提出,但是不少問題依然沒有被很好的處理。每一個問題都是三維視覺領域中亟待解決的熱點,期望大家可以給出新的方法進行解決。
參考文獻
[1] Mikolajczyk K, Schmid C. A performance evaluation of local descriptors [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2005, 27 (10): 1615–1630.
[2] Cai H, Mikolajczyk K, Matas J. Learning linear discriminant projections for dimensionality reduction of image descriptors [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2011, 33 (2): 338–352.
[3] Zhang F, Liu S, Wang D, et al. Aircraft recognition in infrared image using wavelet moment invariants [J]. Image and Vision Computing. 2009, 27 (4): 313–318.
[4] 郭裕蘭.點雲局部特征描述與三維目標重建識別技術研究[D].湖南:國防科學技術大學,2015. DOI:10.7666/d.D01107974.
[5] Guo Y. A Comprehensive Performance Evaluation of 3D Local Feature Descriptors[J]. International Journal of Computer Vision, 2015, 116(1):66-89.
[6] Osada R, Funkhouser T, Chazelle B, et al. Shape distributions [J]. ACM Transactions on Graphics. 2002, 21 (4): 807–832.
[7] Wahl E, Hillenbrand U, Hirzinger G. Surflet-pair-relation histograms: a statistical 3D-shape representation for rapid classification [C]. In 4th International Conference on 3-D Digital Imaging and Modeling. 2003: 474–481.
[8] Funkhouser T, Shilane P. Partial matching of 3D shapes with priority-driven search [C]. In 4th Eurographics Symposium on Geometry Processing. 2006: 131–142.
[9] Bayramoglu N, Alatan A. Shape index SIFT: range image recognition using local features [C]. In 20th International Conference on Pattern Recognition. 2010: 352–355.
[10] Petrelli A, Stefano L. On the repeatability of the local reference frame for partial shape matching [C]. In IEEE International Conference on Computer Vision. 2011: 2244–2251.
[11] Yang J , Cao Z , Zhang Q . A fast and robust local descriptor for 3D point cloud registration[J]. Information Sciences, 2016:S0020025516300378.
[12] Salti S, Tombari F, Stefano L D. SHOT: unique signatures of histograms for surface and texture description [J]. Computer Vision and Image Understanding. 2014, 125 (8): 251–265.
[13] Johnson A E, Hebert M. Using spin images for efficient object recognition in cluttered 3D scenes [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence. 1999, 21 (5): 433–449.
[14] Rodolà E, Albarelli A, Bergamasco F, et al. A scale independent selection process for 3D object recognition in cluttered scenes [J]. International Journal of Computer Vision. 2013: 1–17.
[15] Guo Y, Sohel F, Bennamoun M, et al. TriSI: a distinctive local surface descriptor for 3D modeling and object recognition [C]. In 8th International Conference on Computer Graphics Theory and Applications. 2013: 86–93.
[16] Rusu R B, Blodow N, Marton Z C, et al. Aligning point cloud views using persistent feature histograms [C]. In IEEE/RSJ International Conference on Intelligent Robots and Systems. 2008: 3384–3391.
[17] Rusu R B, Bradski G, Thibaux R, et al. Fast 3D recognition and pose using the viewpoint feature histogram [C]. In IEEE/RSJ International Conference on Intelligent Robots and Systems. 2010: 2155–2162.
[18] Guo Y, Sohel F, Bennamoun M, et al. Rotational projection statistics for 3D local surface description and object recognition [J]. International Journal of Computer Vision. 2013, 105 (1): 63–86.
[19] Tombari F, Salti S, Di Stefano L. Unique signatures of histograms for local surface description [C]. In European Conference on Computer Vision. 2010: 356–369.
[20] Prakhya S M , Lin J , Chandrasekhar V , et al. 3DHoPD: A Fast Low-Dimensional 3-D Descriptor[J]. IEEE Robotics and Automation Letters, 2017, 2(3):1472-1479.
[21] Yang J , Zhang Q , Xian K , et al. Rotational contour signatures for both real-valued and binary feature representations of 3D local shape[J]. Computer Vision and Image Understanding, 2017:S1077314217300322.
[22] Buch A G, Petersen H G, Krüger N. Local shape feature fusion for improved matching, pose estimation and 3D object recognition. SpringerPlus, 2016, 5(1):297.
[23] Yang J, Xiao Y, Cao Z. Toward the repeatability and robustness of the local reference frame for 3D shape matching: An evaluation. IEEE Transactions on Image Processing, 2018, 27(8):3766–3781
[24] Guo Y, Bennamoun M, Sohel F, et al. 3D object recognition in cluttered scenes with local surface features: a survey [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2014, 36 (11): 2270–2287.
[25] Hodan T, Michel F, Brachmann E, et al. Bop: Benchmark for 6d object pose estimation[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 19-34.
[26] Aldoma A, Tombari F, Prankl J, et al. Multimodal cue integration through hypotheses verification for RGB-D object recognition and 6DOF pose estimation [J]. 2013: 2104–2111.
[27] Aldoma A, Marton Z, Tombari F, et al. Tutorial: Point Cloud Library: ThreeDimensional Object Recognition and 6 DOF Pose Estimation [J]. IEEE Robotics & Automation Magazine. 2012, 19 (3): 80–91.
[28] Tombari F, Salti S, Di Stefano L. Performance evaluation of 3D keypoint detectors [J]. International Journal of Computer Vision. 2013, 102 (1): 198–220.
[29] Salti S, Tombari F, Stefano L. A performance evaluation of 3D keypoint detectors [C]. In International Conference on 3D Imaging, Modeling, Processing, Visualization and Transmission. 2011: 236–243.
[30] Sipiran I, Bustos B. Harris 3D: a robust extension of the Harris operator for interest
point detection on 3D meshes. The Visual Computer, 2011, 27(11):963–976.
[31] Zhong Y. Intrinsic shape signatures: A shape descriptor for 3D object recognition [C]. In IEEE International Conference on Computer Vision Workshops. 2009: 689–696.
[32] Steder B, Rusu R B, Konolige K, et al. NARF: 3D range image features for object recognition [C]. In Workshop on Defining and Solving Realistic Perception Problems in Personal Robotics at the IEEE/RSJ International Conference on Intelligent Robots and Systems. 2010.
[33] Mikolajczyk K, Schmid C. A performance evaluation of local descriptors [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2005, 27 (10): 1615–1630.
[34] Yang J, Xian K, Wang P, et al. A Performance Evaluation of Correspondence Grouping Methods for 3D Rigid Data Matching[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019.
[35] Guo Y, Bennamoun M, Sohel F, et al. 3D free form object recognition using rotational projection statistics [C]. In IEEE 14th Workshop on the Applications of Computer Vision. 2013: 1–8.
[36] Mian A, Bennamoun M, Owens R. Three-dimensional model-based object recognition and segmentation in cluttered scenes [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2006, 28 (10): 1584–1601.
[37] Chua C S, Jarvis R. Point signatures: a new representation for 3D object recognition [J]. International Journal of Computer Vision. 1997, 25 (1): 63–85.
[38] Taati B, Greenspan M. Local shape descriptor selection for object recognition in range data [J]. Computer Vision and Image Understanding. 2011, 115 (5): 681–695.
[39] Papazov C, Burschka D. An efficient RANSAC for 3D object recognition in noisy and occluded scenes [C]. In 10th Asian Conference on Computer Vision. 2011: 135–150.
[40] Papazov C, Haddadin S, Parusel S, et al. Rigid 3D geometry matching for grasping of known objects in cluttered scenes [J]. The International Journal of Robotics Research. 2012, 31 (4): 538–553.
[41] Drost B, Ulrich M, Navab N, et al. Model globally, match locally: Efficient and robust 3D object recognition [C]. In 2010 IEEE Conference on Computer Vision and Pattern Recognition. 2010: 998–1005.
[42] Buch A G, Kiforenko L, Kraft D. Rotational subgroup voting and pose clustering for robust 3d object recognition[C]//2017 IEEE International Conference on Computer Vision (ICCV). IEEE, 2017: 4137-4145.
[43] Chen H, Bhanu B. 3D free-form object recognition in range images using local surface patches [J]. Pattern Recognition Letters. 2007, 28 (10): 1252–1262.
[44] Aldoma A, Tombari F, Di Stefano L, et al. A global hypotheses verification method for 3D object recognition [C]. In European Conference on Computer Vision. 2012: 511–524.
[45] Tombari F, Stefano L D. Hough voting for 3d object recognition under occlusion and clutter [J]. IPSJ Transactions on Computer Vision and Applications. 2012, 4 (0): 20–29.
[46] Knopp J, Prasad M, Willems G, et al. Hough transform and 3D SURF for robust three dimensional classification [J]. 11th European Conference on Computer Vision. 2010: 589–602.
[47] Knopp J, Prasad M, Van Gool L. Orientation invariant 3D object classification using hough transform based methods [C]. In ACM Workshop on 3D Object Retrieval. 2010: 15–20.
[48] Johnson A E, Hebert M. Surface matching for object recognition in complex threedimensional scenes [J]. Image and Vision Computing. 1998, 16 (9-10): 635–651.
[49] Mian A, Bennamoun M, Owens R. Three-dimensional model-based object recognition and segmentation in cluttered scenes[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2006, 28 (10): 1584–1601.
[50] Kim E, Medioni G. 3D object recognition in range images using visibility context[C]//2011 IEEE/RSJ International Conference on Intelligent Robots and Systems. IEEE, 2011: 3800-3807.
[51] Choi C, Taguchi Y, Tuzel O, et al. Voting-based pose estimation for robotic assembly using a 3D sensor[C]//2012 IEEE International Conference on Robotics and Automation. IEEE, 2012: 1724-1731.
[52] Choi C, Trevor A J B, Christensen H I. RGB-D edge detection and edge-based registration[C]//2013 IEEE/RSJ International Conference on Intelligent Robots and Systems. IEEE, 2013: 1568-1575.
[53] Drost B, Ilic S. 3d object detection and localization using multimodal point pair features[C]//2012 Second International Conference on 3D Imaging, Modeling, Processing, Visualization & Transmission. IEEE, 2012: 9-16.
[54] Birdal T, Ilic S. Point pair features based object detection and pose estimation revisited[C]//2015 International Conference on 3D Vision. IEEE, 2015: 527-535.
[55] Hinterstoisser S, Lepetit V, Rajkumar N, et al. Going further with point pair features[C]//European conference on computer vision. Springer, Cham, 2016: 834-850.
[56] Tejani A, Tang D, Kouskouridas R, et al. Latent-class hough forests for 3D object detection and pose estimation[C]//European Conference on Computer Vision. Springer, Cham, 2014: 462-477.
[57] Hinterstoisser S, Lepetit V, Ilic S, et al. Model based training, detection and pose estimation of texture-less 3d objects in heavily cluttered scenes[C]//Asian conference on computer vision. Springer, Berlin, Heidelberg, 2012: 548-562.
[58] Hodaň T, Zabulis X, Lourakis M, et al. Detection and fine 3D pose estimation of texture-less objects in RGB-D images[C]//2015 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2015: 4421-4428.
[59] Brachmann E, Krull A, Michel F, et al. Learning 6d object pose estimation using 3d object coordinates[C]//European conference on computer vision. Springer, Cham, 2014: 536-551.
[60] Brachmann E, Michel F, Krull A, et al. Uncertainty-driven 6d pose estimation of objects and scenes from a single rgb image[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 3364-3372.
[61] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems. 2012: 1097-1105.
[62] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2014: 580-587.
[63] He K, Gkioxari G, Dollár P, et al. Mask r-cnn[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2961-2969.
[64] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 779-788.
[65] Liu W, Anguelov D, Erhan D, et al. Ssd: Single shot multibox detector[C]//European conference on computer vision. Springer, Cham, 2016: 21-37.
[66] Liu L, Ouyang W, Wang X, et al. Deep learning for generic object detection: A survey[J]. International Journal of Computer Vision, 2020, 128(2): 261-318.
[67] Tsai R Y, Lenz R K. A new technique for fully autonomous and efficient 3 D robotics hand/eye calibration[J]. IEEE Transactions on robotics and automation, 1989, 5(3): 345-358.
[68] Qi W, Li F, Zhenzhong L. Review on camera calibration[C]//2010 Chinese Control and Decision Conference. IEEE, 2010: 3354-3358.
[69] Salvi J, Armangué X, Batlle J. A comparative review of camera calibrating methods with accuracy evaluation[J]. Pattern recognition, 2002, 35(7): 1617-1635.
[70] Kwon H, Park J, Kak A C. A new approach for active stereo camera calibration[C]//Proceedings 2007 IEEE International Conference on Robotics and Automation. IEEE, 2007: 3180-3185.
[71] Smisek J, Jancosek M, Pajdla T. 3D with Kinect[M]//Consumer depth cameras for computer vision. Springer, London, 2013: 3-25.
[72] Raposo C, Barreto J P, Nunes U. Fast and accurate calibration of a kinect sensor[C]//2013 International Conference on 3D Vision-3DV 2013. IEEE, 2013: 342-349.
[73] Herrera D, Kannala J, Heikkilä J. Joint depth and color camera calibration with distortion correction[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(10): 2058-2064.
[74] Gan Y , Dai X . Base frame calibration for coordinated industrial robots[J]. Robotics & Autonomous Systems, 2011, 59(7):563-570.
[75] Mahler J, Liang J, Niyaz S, et al. Dex-net 2.0: Deep learning to plan robust grasps with synthetic point clouds and analytic grasp metrics[J]. arXiv preprint arXiv:1703.09312, 2017.
[76] Sahbani A, El-Khoury S, Bidaud P. An overview of 3D object grasp synthesis algorithms[J]. Robotics and Autonomous Systems, 2012, 60(3): 326-336.
[77] Roa M A, Suárez R. Grasp quality measures: review and performance[J]. Autonomous robots, 2015, 38(1): 65-88.
[78] Bohg J, Morales A, Asfour T, et al. Data-driven grasp synthesis—a survey[J]. IEEE Transactions on Robotics, 2013, 30(2): 289-309.
[79] Zeng A, Yu K T, Song S, et al. Multi-view self-supervised deep learning for 6d pose estimation in the amazon picking challenge[C]//2017 IEEE international conference on robotics and automation (ICRA). IEEE, 2017: 1386-1383.
[80] Billings G, Johnson-Roberson M. Silhonet: An rgb method for 3d object pose estimation and grasp planning[J]. arXiv preprint arXiv:1809.06893, 2018.
[81] Miller A T, Knoop S, Christensen H I, et al. Automatic grasp planning using shape primitives[C]//2003 IEEE International Conference on Robotics and Automation (Cat. No. 03CH37422). IEEE, 2003, 2: 1824-1829.
[82] Vahrenkamp N, Westkamp L, Yamanobe N, et al. Part-based grasp planning for familiar objects[C]//2016 IEEE-RAS 16th International Conference on Humanoid Robots (Humanoids). IEEE, 2016: 919-925. ↑
[83] Tian H, Wang C, Manocha D, et al. Transferring Grasp Configurations using Active Learning and Local Replanning[C]//2019 International Conference on Robotics and Automation (ICRA). IEEE, 2019: 1622-1628.
[84] Lenz I, Lee H, Saxena A. Deep learning for detecting robotic grasps[J]. The International Journal of Robotics Research, 2015, 34(4-5): 705-724.
[85] ten Pas A, Gualtieri M, Saenko K, et al. Grasp pose detection in point clouds[J]. The International Journal of Robotics Research, 2017, 36(13-14): 1455-1473.
[86] Guo D, Kong T, Sun F, et al. Object discovery and grasp detection with a shared convolutional neural network[C]//2016 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2016: 2038-2043.
[87] Pinto L, Gupta A. Supersizing self-supervision: Learning to grasp from 50k tries and 700 robot hours[C]//2016 IEEE international conference on robotics and automation (ICRA). IEEE, 2016: 3406-3413.
[88] Chu F J, Vela P A. Deep grasp: Detection and localization of grasps with deep neural networks[J]. arXiv preprint arXiv:1802.00520, 2018.
[89] Schaal S. Dynamic movement primitives-a framework for motor control in humans and humanoid robotics[M]//Adaptive motion of animals and machines. Springer, Tokyo, 2006: 261-280.
[90] Rai A, Sutanto G, Schaal S, et al. Learning feedback terms for reactive planning and control[C]//2017 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2017: 2184-2191.
[91] Colomé A, Torras C. Dimensionality reduction for dynamic movement primitives and application to bimanual manipulation of clothes[J]. IEEE Transactions on Robotics, 2018, 34(3): 602-615.
[92] Pervez A, Lee D. Learning task-parameterized dynamic movement primitives using mixture of GMMs[J]. Intelligent Service Robotics, 2018, 11(1): 61-78.
[93] Li C, Yang C, Ju Z, et al. An enhanced teaching interface for a robot using DMP and GMR[J]. International journal of intelligent robotics and applications, 2018, 2(1): 110-121.
[94] Amor H B, Kroemer O, Hillenbrand U, et al. Generalization of human grasping for multi-fingered robot hands[C]//2012 IEEE/RSJ International Conference on Intelligent Robots and Systems. IEEE, 2012: 2043-2050.
[95] Laskey M, Lee J, Chuck C, et al. Robot grasping in clutter: Using a hierarchy of supervisors for learning from demonstrations[C]//2016 IEEE International Conference on Automation Science and Engineering (CASE). IEEE, 2016: 827-834.
[96] Dogar M, Hsiao K, Ciocarlie M, et al. Physics-based grasp planning through clutter[J]. 2012.
[97] Zeng A, Song S, Welker S, et al. Learning synergies between pushing and grasping with self-supervised deep reinforcement learning[C]//2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2018: 4238-4245.
本文僅做學術分享,如有侵權,請聯系刪文。