原論文地址:https://arxiv.org/abs/1909.04810
代碼地址:https://github.com/skumra/robotic-grasping
摘要:-在本文中,該文提出了一個模塊化的機器人系統來解決從場景n通道圖像中生成和執行對跖機器人抓取未知物體的問題。我們提出了一種新的生成殘差卷積神經網絡(GR-Convnet),可以實時(~20ms)下從N通道輸入生成魯棒的對跖抓取。該文在標准數據集和不同家庭對象上評估所提出的模型體系結構,在Conerll和Jacquard抓取數據集上,該文分別達到了97.7%和94.6%的准確率。該文也證明了使用7自由度的機械臂在家庭和對抗物體上的抓取成功率分別為95.4%和93%。
Ⅰ INTRODUCTION
由於人類具有基於自身經驗本能快速、輕松地抓住未知物體地固有特征,機器人操作經常被拿來與人進行比較。隨着越來越多的研究正在進行,以使機器人更智能,存在一個普遍的技術,以推斷快速和魯棒的抓取任何類型的物體。機器人遇到的主要挑戰是如何能夠精確地將機器人學習到地知識轉移到真實世界的物體上。
該文提出了一種模塊化的機器人不可知論方法來解決抓取未知物體的問題。我們提出了一種生成殘差卷積神經網絡,它對n通道中的每個像素生成對趾抓取,我們使用術語“抓取”來區分我們的方法和其他方法,其他方法輸出一個抓取成功概率或者抓取分類樣本,用來預測最佳的抓取。與之前在機器人抓取【1】,【2】,【3】,【4】不同,通過多個抓取概率中選擇最佳的抓取概率,和預測所需概率為一個抓取矩形不同,我們網絡生成了三個圖像,從這些圖像中我們可以推斷出多個物體的抓取矩形。此外,可以從GR-ConvNet的輸出中一次推斷出多個物體的多個抓取,從而減少了總體計算時間。
圖一顯示了所提議的系統架構。它由兩個主要模塊組成:推理模塊和控制模塊。推理模塊從RGB-D相機中獲取場景RGB和對齊深度圖像。圖像經過預處理以匹配GR-ConvNet的輸入格式,網絡生成質量、角度、和寬度圖像,利用上述輸出推斷對跖抓取位姿。所述控制模塊包括任務控制器,該任務控制器准備並執行計划,以使用所述推理模塊生成的抓取姿態執行拾取和放置任務。它通過使用軌跡規划和控制器的ROS接口向機器人傳達所需的動作。

圖一:提出了系統的概述。推理模塊預測相機視場中物體合適的抓取姿勢。控制模塊使用這些抓取姿勢來規划和執行機器人的軌跡來執行對跖抓取。
本文的主要貢獻可以總結如下:
1、我們提出了一個模塊化的機器人系統,用來預測、計划、並執行對跖抓取在場景中的對象並且將文中提到的inference和Control模塊開源。
2、我們提出了一種新的生成殘差卷積神經網絡體系結構,該體系結構可以預測相機視覺場景內物體合適的對跖抓取配置。
3、我們在公開的數據集上評估了我們的模型,在Cornell和Jacquard抓取數據集上分別達到了97.7%和94.6%的精度。
4、我們證明了所提出的模型可以部署在機械臂上以實時的速度在家用物體和對抗物體上執行對跖抓取,並分別達到95.4%和93%的成功率。
Ⅱ RELATED WORK
機器人抓取:在機器人領域,特別是機器人抓取領域,已經有了廣泛的正在進行的研究。盡管問題似乎僅僅是找到目標物體合適的抓取位置,但是實際任務涉及到多方面的元素比如被抓取的目標物體、目標物體的形狀、對象的物理特性和抓取物體的鉗子。這一領域的早期研究涉及到手動設計【5】【6】特征,這可能是一項乏味和耗時的任務,但是對用多個手指抓取物體有意義,如【7】【8】
為了獲得穩定的抓取,首先研究了末端執行器和物體接觸時的力學和接觸運動學,並根據【9】【10】的調查結果進行了抓取分析。之前在機器人抓取新物體方面的工作【11】涉及到使用監督學習,這種學習是根據合成數據進行訓練的,但僅限於辦公室、廚房和洗碗機環境。Satish等人【12】引入了一種全卷積抓取質量卷積神經網絡(FC-GQ-CNN),該網絡通過使用數據收集策略和綜合訓練環境來預測魯棒的抓取質量。該方法使使抓握次數在0.625S內增加到5000次。然而目前的研究更多地依賴於利用RGB-D數據來預測抓取姿態。這些方法完全依賴於深度學習技術。
面向抓取的深度學習:自從ImageNet的成功問世以及GPU等快速計算技術的使用以來,深度學習一直使研究的熱點。此外,廉價的RGB-D傳感器可用性使得深度學習技術能夠直接從圖像中學習物體的特征。最近使用的深度神經網絡【2】【13】【14】的實驗表明,他們可以有效的計算穩定抓取。pinto等人【3】使用了一種類似於AlexNet的架構,表明通過增加數據的大小,他們的CNN能夠更好的地泛化到新的數據。V【15】提出了一種有趣的方法,通過形狀來完成抓取規划,其中使用3D CNN來訓練從不同視點捕獲的對象數據集上的3D原型上的網絡。Guo等人[16]使用觸覺數據和視覺數據來訓練混合的深度架構。Mahler等人[17]提出了一種抓取質量卷積神經網絡(GQ-CNN),該網絡從Dex-Net 2.0抓取規划數據集上訓練的合成點雲數據預測抓取。Levine等人[18]討論了使用單目圖像進行手眼協調,並使用深度學習框架進行機器人抓取。他們使用CNN進行抓取成功預測,並進一步使用連續伺服對機械手進行連續伺服以糾正錯誤。Antanas等人的[19]討論了一種有趣的方法,稱為概率邏輯框架,據說可以提高機器人的抓取能力這個框架結合了高級推理和低級抓取。高級推理包括對象啟示、類別和基於任務的信息,而低級推理使用視覺形狀特征。這已經被觀察到在廚房相關的場景中工作得很好。
利用單模態數據抓取:約翰斯等人的[24]使用模擬深度圖像來預測每個預測的抓取姿態的抓取結果,並使用一個抓取不確定性函數來平滑預測的姿態,從而選擇最佳的抓取。莫里森等人的[20]討論了抓取的生成方法。生成抓取CNN架構使用深度圖像生成抓取姿勢,網絡以像素為基礎計算抓取。[20]說明它減少了現有離散采樣的缺點和計算復雜度。另一種最近的方法僅僅依賴深度數據作為深度CNN的唯一輸入,如[13]所示。
利用多模態數據抓取:有不同的方法來處理物體的多模態。許多人使用單獨的特征來學習可以在計算上窮舉的模式。Wang等人提出了將多模態信息視為相同的方法。Jiang等人使用RGB-D圖像基於兩步學習過程來推斷抓取。第一步縮小搜索空間,第二步從第一種方法得到的頂部抓取點計算最優抓取矩形。lenz等人使用類似的兩部走的深度學習框架,但是可能不是適合所有類型的對象,經常預測並不是最優抓取位置的抓取,比如在【26】中算法預測鞋帶的抓取位置,在實踐中經常失敗,而在【1】中,由於使用了RGB-D傳感器和局部信息,算法有時候無法預測那種抓取更加實用。yan【27】使用點雲預測網絡,首先對數據進行預處理,獲得顏色、深度、蒙面圖像,然后獲得物體的三維點雲,送入網絡預測抓取。chu【21】等人提出了一種新穎的結構,可以同時預測多個物體的多個抓取,而不是單個物體,為此,他們使用了自己的多對象數據集。該模型還在Cornell進行測試。Ogas討論了一種機器人抓取方法,該方法用於物體識別的卷積神經網絡和用於操縱物體的抓取方法組成。所述方法假定是一條工業生產裝配線,其中假定對象參數預先知道。Kumar[4]等人提出了一種Deep CNN架構,該架構使用殘余層來預測魯棒抓取。研究結果表明,帶殘差的深度網絡具有更好的特征學習能力和更快的性能。Asif引入了一個名為EnsembleeNet的整合框架,其中抓取生成網絡生成四種抓握表征,EnsembleeNet將這些生成的抓握進行綜合,生成抓握得分,從中選取得分最高的抓握。我們的工作基於類似的概念,旨在推進這一領域的研究。表一提供我們的工作與最近在機器人抓取未知物體方面的相關研究工作的比較。

Ⅲ PROBLEM FORMULATION
在本工作中,我們將機器人抓取問題定義為從n通道圖像預測未知物體的對跖抓取,並且在機器人上執行它。
我們沒有使用【1】【2】【4】中的五維抓取表征,而是使用了Morrsion等人在【20】中提出的一種改進的抓取表征。我們將機器人框架中的抓取姿態表征為:
在上述公式中,P=(X,Y,Z)是工具的中心位置是工具繞Z軸旋轉的角度,Wr是工具的寬度,Q是抓取的分數。
我們從N通道圖像
,其中高度為h,寬度為w,抓取圖像可以定義為:

其中(x,y)對應於圖像坐標中的抓取中心,
是相機參照系內的旋轉,Wi是圖像坐標中所需的寬度,Q為式(1)中相同的標量。
抓取質量評分Q是圖像中每個點的抓取質量,表示為0到1之間的評分值,接近1的評分值表示抓握成功的概率較大。
是對跖測量量,測量每個感興趣的物體所需要的角度旋轉量,並表示為【-pi/2,pi/2】中的一個值。Wi表示抓取時抓取器張開的寬度,表示均勻深度的度量,值的范圍為【0,Wmax】。Wmax表示抓取器張開的最大寬度。
要在機器人上執行在圖像空間中獲得的抓取,我們可以應用下述變化將圖像坐標轉換為機器人的參照系。

Tci是利用相機的內在參數將圖像空間轉換為相機的三維空間的變換,Trc是利用相機的位姿標定值將相機空間轉換為機器人空間的變換。
這個可以在圖像的多次抓取中歸一化,所有抓取的集合都可以表示為:

上式中,
分別代表由式(2)計算的每個像素處的抓取角度、抓取寬度、和抓取質量分數。
Ⅳ.APPROACH
我們提出了一個雙模塊系統來預測,計划和執行對跖抓起在場景中的物體。所提出的系統概述如圖1所示。推理模塊用於預測相機視覺場景內物體核實的抓取姿態。該控制模塊使用這些抓取姿態來規划和執行機器人的軌跡,以執行對跖抓取。
A:推理模塊
推理模塊由三大部分組成。首先,在裁剪、調整大小和規范化的地方對輸入數據進行預處理。如果輸入有深度圖像,則對其進行內繪以獲得深度表示【30】。224*224大小,n通道處理后的輸入圖像被送入GR-ConvNet。它使用n通道輸入並不局限於特定的輸入模式,比如只使用深度或者只使用rgb的圖像作為我們的輸入圖像。因此,將其推廣到任何類型的輸入模態。第二部利用GRConvNet對預處理后的圖像提取特征,生成三幅圖像作為抓取角度、抓取寬度和抓取質量評分的輸出。第三部分利用上述三幅圖像輸出抓取姿勢。
B:控制模塊
該控制模塊主要包括一個任務控制器,執行拾取和校准等任務。控制器從推理模塊請求一個抓取姿態,推理模塊返回質量得分最高的抓取姿態。然后利用手眼標定【31】計算得到的變換將攝像機坐標抓換為機器人坐標。此外,機器人框架中的抓取姿態被用來軌跡規划,通過使用ROS接口使用逆運動學執行拾取和放置動作。然后機器人執行計划的軌跡。由於我們模塊化方法和ROS集成,該系統可以用於任何機械臂。

C:模型架構
圖2顯示了本文提出的GR-ConvNet模型,這是一種生成架構,它接收n通道輸入圖像,並以三幅圖像的形式生成像素級抓取。n通道圖像經過3個卷積層,然后經過5個殘差層和卷積轉置層,生成4幅圖像,這些輸出圖像由抓取質量分值、角度由sin2(sita)和con2(sita)組成以及末端執行器所需要的寬度。由於對跖抓取在±(pi/2)周圍式均勻的,我們以兩個元素sin2(sita)和con2(sita)的形式提取角度,這兩個元素輸出不同的值,並組合成所需的角度。
卷積層從輸入圖像中提取特征。然后將卷積層的輸出作為輸入放進5個剩余層。正如我們所知,精度隨着層數的增加而增加。但是,當超過一定的數量的層時,就不是這樣了,這會導致梯度消失和維數誤差的問題,從而導致飽和和精度下降。因此,使用剩余層可以讓我們通過跳過連接更好地學習特征函數。當圖像經過這些卷積層和殘差層后,圖像地大小減小到56*56,這可能很難解釋。因此,為了便於對卷積后的圖像進行解釋和保留空間特征,我們對圖像進行卷積轉置運算。這樣,我們得到的輸出圖像的大小與輸入圖像的大小相同。
我們的網絡總共有1900900個參數,這表明我們的網絡相對於其他網絡【4】,【22】,【29】來說比較短。因此,與使用包含百萬個參數和復雜架構的類似抓取預測技術的其他架構相比,它的計算成本更低,速度更快。該模型的輕量化特性使其適合於在高達50HZ的速率下進行閉環控制。
D:訓練方法

使用Adam優化器【32】。標准反向傳播和小批量SGD技術【33】對模型進行訓練。學習率設置為10-3,使用8個小批量。我們使用三種隨機種子訓練模型,報告三種種子的平均值。
E:損失函數
我們分析了我們網絡中的各種損失函數的性能,經過幾次實驗后發現,為了處理梯度爆炸,平滑L1損失也被稱為Huber損失最有效。我們把損失定義為:

Ⅴ.EVALUATION
A. 數據集
公開的對跖抓取數據集數量有限。表二顯示了公開可用的對跖抓取數據集摘要。我們使用其中的兩個數據集來訓練和評估我們的模型。第一個是Cornell抓取數據集,這是最常用的抓取數據集,用於基准測試結果。第二個是Jacquard抓取數據集【34】。它比Cornell數據集大50多倍。

Cornell抓取數據集的擴展版本包含了1035張RGB-D圖像,分辨率為640*480像素,包含了240個不同真實物體的5100的正抓取和2909的負抓取。被標注的Groud truth由每個物體的抓取的可能性的抓取矩形組成,對於我們的網絡來說,Cornell數據集是一個小樣本數據集,因此我們使用隨機剪裁、縮放、和旋轉創建一個增強數據集,從而有效的擁有51k個抓取樣本。在訓練過程中,只考慮從數據集中得到正向標記的抓取。
Jacquard抓取數據集建立在大型CAD模型數據集ShapeNet的一個子集上。它由54KRGB-D圖像和基於模擬環境中抓取嘗試的成功抓取位置標注組成。總共由110萬個抓取樣例。由於該數據集足夠大,可以訓練我們的模型,因此不執行增強操作。
B:抓取檢測指標
為了與我們的結果進行比較,我們使用了Jiang等人提出的矩形度量【26】來報告我們系統的性能。根據本文提出的矩形度量,當一個抓取滿足以下兩個條件時,認為該抓取是有效的:
1、ground truth抓取矩形和預測抓取矩形的IoU相交值大於25%
2、預測的抓取矩形與ground truth抓取矩形的抓取方向偏差小於30°
這個度量要求一個抓取矩形表示,但是我們的模型使用方程2預測基於圖像的抓取表示。因此,為了將基於圖像的抓握表示轉換為矩形表示,需要將輸出圖像中的每個像素對應的值映射為其等效的矩形表示。
Ⅵ. EXPERIMENTS
在我們的實驗中,我們評估了我們的方法:(i)兩個標准數據集,(ii)家庭對象,(iii)對抗對象和(Ⅳ)雜亂對象。
A:Setup
為了獲得真實世界實驗的場景圖像,我們使用了立體視覺計算深度的英特爾RealSense深度相機D435。它由一堆RGB傳感器、深度傳感器和一個紅外投影儀組成。實驗是在Rethinking Robotics公司的7自由度Baxter機器人上進行的。采用兩指平行夾持器抓取被試物體。攝像機安裝在機器人手臂的后面,從肩膀上看過去。我們提出的pr-convnet的執行實踐是在一個運行ubuntu16.04和inter Core i7-7800x cpu(3.50GHZ)和NVIDIA GeForce GTX1080Ti顯卡(CUDA10)的系統上測試的。
B:家庭物件
共選擇了35個家庭對象來測試我們的系統的性能。每個物體都被單獨測試了10個不同的位置和方向,導致了350次抓取嘗試。每個物體都代表不同的形狀、大小和幾何形狀;而且彼此之間幾乎沒有相似之處。我們創造了一種可變形的、難以抓握的、反射性的和需要高精度的小物體的混合。圖3a顯示了用於實驗的一組對象
C:對抗測試物品
另一個包含10個復雜幾何對抗對象的集合被用來評估我們所提出的系統的精度。這些3D打印的物體具有不確定的表面和邊緣的抽象幾何,難以感知和把握。每一個物體都被單獨測試了10個不同的方向和位置,總共有100次抓握嘗試。圖3b顯示了實驗中使用的對抗對象。

D:雜亂的對象
工業應用程序(如倉庫)要求對象能夠從雜亂中分離出來。因此,為了在雜亂的物體上進行實驗,我們用60個看不見的物體進行了10次運行。每次運行都有一組不同的對象,這些對象都是從之前未見過的新對象中挑選出來的,從而創造出一個混亂的場景。這方面的一個例子如圖5所示。當相機的視野中沒有物體時,每次運行都會終止。
Ⅶ. RESULTS
在本節中,我們將討論我們的實驗結果。我們在Cornell和Jacquard數據集上評估GR-ConvNet,根據數據集的大小、訓練數據的類型等因素檢查每個數據集的結果,並展示我們的模型對任何類型的對象進行泛化的能力。此外,我們還證明了我們的模型不僅能夠為孤立的對象生成單個抓取,而且能夠為雜亂環境中的多個對象生成多個抓取。
圖4顯示了在以前看不見的物體上獲得的定性結果。圖的輸出以圖像Gi表示,Gi由抓取質量分數Q、抓取所需角度(sita),和夾取器寬度Wi。它還包括以矩形抓取表示形式的輸出投影到RGB圖像上。
此外,通過測量網絡在不同類型對象上的性能,我們通過與其他方法的比較,證明了我們方法的可行性。此外,我們評估我們的網絡在不同輸入模式下的性能。模型所測試的模式包括單模態,如只包含深度和只包含RGB輸入圖像,以及RGB-D圖像等多模態輸入。表三顯示,與單模態數據相比,我們的網絡在多模態的數據上表現更好,因為多種輸入模式能夠更好地學習輸入特征。

A. Cornell Dataset
我們按照前面的工作[1]、[2]、[4]、[23]、[16]中的交叉驗證設置,使用圖像方式(IW)和對象方式(OW)數據分割。表三顯示了我們的系統在多種模式下的性能,並與其他用於抓取預測的技術進行了比較。使用RGB-D數據,我們獲得了最先進的圖像分割准確率為97.7%,對象分割准確率為96.6%,優於所有競爭方法,如表三所示。在數據集中之前未見過的對象上獲得的結果表明,我們的網絡可以預測驗證集中不同類型的對象的魯棒抓取。在康奈爾抓取數據集上進行的數據擴充提高了網絡的整體性能。此外,記錄的預測速度為20ms表明GR-ConvNet適用於實時閉環應用。
B.Jacquard Dataset
對於Jacquard數據集,我們在90%的數據集圖像上訓練我們的網絡,並在剩余數據集的10%上進行驗證。因為Jacquard數據集比Cornell數據集大得多,所以不需要增加數據。我們在Jacquard數據集上使用多種模式進行實驗,以RGB-D數據作為輸入,獲得了最先進的結果,精度為94.6%。從表四可以看出,我們的網絡不僅在Cornell抓取數據集上得到了最好的結果,而且在Jacquard數據集上也優於其他方法。

C. 抓取從未見過的目標物體
在兩個標准數據集上的最先進的結果,我們也證明了我們的系統在新的真實世界的機器人抓取實驗中同樣表現出色。我們使用了35個家用物體和10個對抗物體來評估我們的系統在物理世界中使用百特機械臂的性能。每個物體都被測試了10個不同的位置和方向。在家用物體的350次抓取嘗試中,機器人成功抓取334次,准確率為95.4%;在對抗物體的100次抓取嘗試中,機器人成功抓取93次,准確率為93%。表V顯示了我們與其他基於深度學習的機器人抓取方法的比較結果。從表V和圖4中得到的結果表明,GRConvNet能夠很好地推廣到它以前從未見過的新對象。該模型能夠生成所有物體的抓手,除了一個透明的瓶子。
D.雜亂環境中的目標物體
在預測新的真實目標的最佳抓取的同時,我們的魯棒模型能夠預測雜波中多個目標的多次對跖抓取。每次運行都進行了物體替換和不進行物體替換,通過在每次運行中每次成功的抓取嘗試的平均抓取成功,我們獲得了93.5%的抓取成功。盡管該模型只對孤立的物體進行訓練,但它能夠有效地預測多種物體的抓取情況。此外,圖4(d)為多目標預測抓取,圖5為雜亂環境下機器人抓取家庭和對抗對象。這表明GR-ConvNet可以推廣到所有類型的物體,並可以預測雜波中多個物體的魯棒抓取

E. 失敗案例分析
在我們的實驗結果中,只有少數情況可以算作失敗。其中,掌握分數極低的對象和那些從夾持器被關閉時滑落的是最常見的。這可能是由於來自相機的不准確的深度信息和夾持器與附近物體的碰撞導致的夾持器不對准。
另一個模型不能很好把握的例子是透明瓶,如圖4(e)所示。這可能是由於由於物體的反射,相機捕捉到的深度數據不准確。然而,通過結合深度數據和RGB數據,模型仍然能夠很好地把握透明對象。
Ⅷ. CONCLUSION
我們提出了一個模塊化的解決方案,以抓取新的目標使用我們的生成殘差卷積神經網絡它使用n通道輸入數據生成圖像,可用於推斷圖像中每個像素的抓取矩形。我們在兩個標准數據集上評估了GR-ConvNet, Cornell抓取數據集和Jacquard數據集,並在這兩個數據集上獲得了最先進的結果。我們也使用機械臂在雜波中的新真實物體上驗證了所提出的系統。結果表明,我們的系統可以預測和執行准確的抓取之前看不見的物體。此外,該模型推理時間短,適合於閉環機器人抓取。在未來的工作中,我們希望將我們的解決方案擴展到不同類型的夾持器,如單、多吸盤和多指夾持器。我們也希望利用深度預測技術來准確預測反射物體的深度,這有助於提高對瓶子等反射物體的抓握預測精度。
