ChaLearn Gesture Challenge挑戰賽是手勢識別中比較新的(2011年開始的)一個挑戰賽,屬於機器學習挑戰賽中的一個,其初衷是進行One-Shot learning的挑戰,當然也不局限在此。官網為:http://gesture.chalearn.org/ ,2012年分別主辦了兩輪比賽,一個是在CVPR2012中進行,另一個是在ICPR2012中進行。關於本次比賽的一些規則,以及已經完成比賽的作者的識別方法的一些細節在官網上都能查看得到。大家有興趣13年也可以參加下。因為在日常生活中會遇到各種各樣的手勢,如果對這些手勢的識別能取得很大成功的話,那么離AI又更近一步了,下面這張圖是生
活中常見產生手勢的場所:
本文主要是簡單介紹下關於這個挑戰賽的數據庫,數據庫的英文名稱為ChaLearn Gesture Data,簡稱CGD,或者CGD2011。數據庫可以從http://gesture.chalearn.org/data/cgd2011這里下載,如果下載壓縮版的則大小約5G,否則無壓縮版的則達到30G。考慮到即使壓縮過后,其實也不會對識別結果有太大的影響,且本人電腦承受能力有限,所以我這里下載了個壓縮版的。
當然了,下載下來后的數據庫都是視頻格式,分為深度圖像視頻和彩色圖像視頻,因為在錄制視頻的時候是用Kinect錄制的。由此可見,這些手勢識別既可以能有深度信息又可以利用色彩信息,這對搞深度數據的行為識別的人算是一個很好的公共數據庫了。
下面是這個數據庫的一些特征:
1. 共有30個左右的手勢單詞,也就是說有30個基本的手勢動作。
2. 視頻數據分為500個batch,每個batch含有94個視頻,視頻分為2種,每種各47個。如果視頻名稱為M_x.avi的話,則表示是RGB圖像的視頻,否則名稱為K_x.avi表示的是深度圖像的視頻。每個視頻有可能有多個基本手勢動作,一般是1~5個,且每個batch最終是100個手勢,很明顯這中間有重復的手勢(因為總共才有30個手勢單詞)。因此,最終有50000=500*100個手勢。每個batch如下圖顯示:
當然了,其中還包含了2個csv文件,用來描述訓練和測試數據用的(具體應用還沒弄過)。
3. 視頻數據的錄制是由20個人完成的。取出一個人的某一個手勢的深度圖和RGB圖,顯示如下:
4. 視頻中每一張圖片的大小為240*320.
5. 視頻的幀率是每秒10幀。
6. 這500個batch又分為2種,即”devel”和”valid”,其中”devel”有480個,”valid”有20個。”devel”表示可用於挑戰賽開發(development)的數據庫,這些數據提供了訓練數據和測試數據的標注。”valid”表示用於驗證(validation)的,只提供了訓練數據的標簽。測試結果需要在網絡上提交。
7. 深度圖像是以灰階的形式顯示出來的,其計算公式如下所示:
f(x)=(x-mini)/(maxi-mini),max為最大距離,min為最小距離。X是當前點的距離,f(x)為深度圖像顯示時的灰度值。
8. 深度圖像也是有不同精度的,因為錄制數據時的軟件版本不同。這里分為3個精度,0表示一般(Mediocre),1表示比較好(Good),2表示非常好(Very Good). 比如說前面幾個batch的精度顯示如下(num表示序號,acc表示精度, miss表示漏洞的文件):
如果大家是研究手勢識別的話,特別是基於Kinet深度信息的,可以一起交流下,挑戰下這個數據庫!
參考資料: