最近想用svm+hog檢測行人。網上找了很多代碼,都看不太懂。無奈,水平太低。好不容易找到一個博客,介紹的很詳細,但是有一點不太清楚。我在這補充一下。
先貼上原文:http://blog.csdn.net/candyforever/article/details/8963999
http://blog.csdn.net/candyforever/article/details/8564746
寫數字庫:http://code.google.com/p/supplement-of-the-mnist-database-of-handwritten-digits/downloads/list
第一步: 下載訓練用的圖片。下載名字為t10k-images-bmp.rar的那個。別的都是二進制文件,只有這個事bmp格式的。
第二步:用批處理命令處理初始實驗數據。
首先,把圖片分文件夾放好。如下:
接下來我就以1為例:在1的文件夾內新建txt文件,里面復制上代碼:dir /b/s/p/w *.bmp > num.txt
然后保存,把這個txt文件的后綴改成bat,雙擊。會得到一個num.txt文件。
接着再新建一個txt文件,里面復制代碼:
setlocal enabledelayedexpansion
for /f "delims= " %%a in (num.txt) do (
set /a line =1
echo %%a >>0.txt
echo !line! >>0.txt
)
后綴改成bat,雙擊。這時黑色窗口會跑一會兒。
接着得到一個名稱為0.txt的文件。里面應該是這樣的:
D:\handwriting\1\1_0.bmp
1
D:\handwriting\1\1_1.bmp
1
D:\handwriting\1\1_10.bmp
1
D:\handwriting\1\1_100.bmp
1
D:\handwriting\1\1_1000.bmp
1
D:\handwriting\1\1_1001.bmp
1
D:\handwriting\1\1_1002.bmp
1
其他文件夾類似處理,但是有一點注意:
如果我在修改3這個文件夾,第二個批處理命令的第三行,應該改成
set /a line =3
得到的0.txt里面的內容應該是:
D:\handwriting\3\3_0.bmp
3
D:\handwriting\3\3_1.bmp
3
D:\handwriting\3\3_10.bmp
3
D:\handwriting\3\3_100.bmp
3
這個樣子。偶數行是訓練樣本所屬的類。
然后,在
這個文件夾里再設置一個批處理,這里叫hb.bat,里面附上代碼:
@echo off
set d=d:\nums
pushd %d%
del hb.tmp 2>nul
for /f "tokens=*" %%i in ('dir/b/s *.txt') do type "%%i">>hb.txt
ren hb.tmp hb.txt
popd
目的就是把在這10個文件夾里的txt文本很到一起,生成hb.txt。其實這里有用的只是每個文件夾里面的0.txt
這個文件,num.txt由於沒有分類號,是用不上的,你可以提前刪去(不刪也無所謂,在訓練的時候會自動舍棄)。
這里的hb.txt的文件就是我們最后要輸入程序的。假設我們把它放在了d盤的根目錄。
第三步:訓練代碼
#include "stdafx.h" #include "opencv2/opencv.hpp" #include "windows.h" #include "fstream" using namespace std; using namespace cv; int main() { vector<string> img_path;//輸入文件名變量 vector<int> img_catg; int nLine = 0; string buf; ifstream svm_data( "D:\\hb.txt" );//剛用批處理得到的文件 unsigned long n; while( svm_data )//將訓練樣本文件依次讀取進來 { if( getline( svm_data, buf ) ) { nLine ++; if( nLine % 2 == 0 )//注:奇數行是圖片全路徑,偶數行是標簽 { img_catg.push_back( atoi( buf.c_str() ) );//atoi將字符串轉換成整型,標志(0,1,2,...,9),注意這里至少要有兩個類別,否則會出錯 } else { img_path.push_back( buf );//圖像路徑 } } } svm_data.close();//關閉文件 CvMat *data_mat, *res_mat; int nImgNum = nLine / 2; //nImgNum是樣本數量,只有文本行數的一半,另一半是標簽 data_mat = cvCreateMat( nImgNum, 324, CV_32FC1 ); //第二個參數,即矩陣的列是由下面的descriptors的大小決定的,可以由descriptors.size()得到,且對於不同大小的輸入訓練圖片,這個值是不同的 cvSetZero( data_mat ); //類型矩陣,存儲每個樣本的類型標志 res_mat = cvCreateMat( nImgNum, 1, CV_32FC1 ); cvSetZero( res_mat ); IplImage* src; IplImage* trainImg=cvCreateImage(cvSize(28,28),8,3);//需要分析的圖片,這里默認設定圖片是28*28大小,所以上面定義了324,如果要更改圖片大小,可以先用debug查看一下descriptors是多少,然后設定好再運行 //處理HOG特征 for( string::size_type i = 0; i != img_path.size(); i++ ) { src=cvLoadImage(img_path[i].c_str(),1); if( src == NULL ) { cout<<" can not load the image: "<<img_path[i].c_str()<<endl; continue; } cout<<" 處理: "<<img_path[i].c_str()<<endl; cvResize(src,trainImg); HOGDescriptor *hog=new HOGDescriptor(cvSize(28,28),cvSize(14,14),cvSize(7,7),cvSize(7,7),9); vector<float>descriptors;//存放結果 hog->compute(trainImg, descriptors,Size(1,1), Size(0,0)); //Hog特征計算 cout<<"HOG dims: "<<descriptors.size()<<endl; n=0; for(vector<float>::iterator iter=descriptors.begin();iter!=descriptors.end();iter++) { cvmSet(data_mat,i,n,*iter);//存儲HOG特征 n++; } cvmSet( res_mat, i, 0, img_catg[i] ); cout<<" 處理完畢: "<<img_path[i].c_str()<<" "<<img_catg[i]<<endl; } CvSVM svm = CvSVM();//新建一個SVM CvSVMParams param;//這里是SVM訓練相關參數 CvTermCriteria criteria; criteria = cvTermCriteria( CV_TERMCRIT_EPS, 1000, FLT_EPSILON ); param = CvSVMParams( CvSVM::C_SVC, CvSVM::RBF, 10.0, 0.09, 1.0, 10.0, 0.5, 1.0, NULL, criteria ); svm.train( data_mat, res_mat, NULL, NULL, param );//訓練數據 //保存訓練好的分類器 svm.save( "d:\\HOG_SVM_DATA.xml" ); //檢測樣本 IplImage *test; char result[512]; vector<string> img_tst_path; ifstream img_tst( "D:\\SVM_TEST.txt" ); //加載需要預測的圖片集合,隨便放置一個生成的num.txt文件就行 while( img_tst ) { if( getline( img_tst, buf ) ) { img_tst_path.push_back( buf ); } } img_tst.close(); ofstream predict_txt( "d:\\SVM_PREDICT.txt" );//把預測結果存儲在這個文本中 for( string::size_type j = 0; j != img_tst_path.size(); j++ )//依次遍歷所有的待檢測圖片 { test = cvLoadImage( img_tst_path[j].c_str(), 1); if( test == NULL ) { cout<<" can not load the image: "<<img_tst_path[j].c_str()<<endl; continue; } IplImage* trainTempImg=cvCreateImage(cvSize(28,28),8,3); cvZero(trainTempImg); cvResize(test,trainTempImg); HOGDescriptor *hog=new HOGDescriptor(cvSize(28,28),cvSize(14,14),cvSize(7,7),cvSize(7,7),9); vector<float>descriptors;//結果數組 hog->compute(trainTempImg, descriptors,Size(1,1), Size(0,0)); cout<<"HOG dims: "<<descriptors.size()<<endl; CvMat* SVMtrainMat=cvCreateMat(1,descriptors.size(),CV_32FC1); int n=0; for(vector<float>::iterator iter=descriptors.begin();iter!=descriptors.end();iter++) { cvmSet(SVMtrainMat,0,n,*iter); n++; } int ret = svm.predict(SVMtrainMat);//檢測結果 sprintf( result, "%s %d\r\n",img_tst_path[j].c_str(),ret ); predict_txt<<result; //輸出檢測結果到文本 } predict_txt.close(); cvReleaseMat( &data_mat ); cvReleaseMat( &res_mat ); cvReleaseImage(&test); cvReleaseImage(&trainImg); return 0; }
待預測的文件內容
預測結果應改是這樣:
下面開始檢測步驟:
#include "stdafx.h" #include "opencv2/opencv.hpp" #include "windows.h" #include "fstream" using namespace std; using namespace cv; int main() { CvSVM svm = CvSVM(); svm.load("d:\\HOG_SVM_DATA.xml");//加載訓練好的xml文件,這里訓練的是10K個手寫數字 //檢測樣本 IplImage *test; char result[300]; //存放預測結果 test = cvLoadImage("d:\\5.bmp", 1); //你自己隨便在繪圖板里寫一個程序 if (!test) { MessageBox(NULL,TEXT("待預測圖像不存在!"),TEXT("提示"),MB_ICONWARNING); return -1; } IplImage* trainTempImg=cvCreateImage(cvSize(28,28),8,3); cvZero(trainTempImg); cvResize(test,trainTempImg); HOGDescriptor *hog=new HOGDescriptor(cvSize(28,28),cvSize(14,14),cvSize(7,7),cvSize(7,7),9); vector<float>descriptors;//存放結果 hog->compute(trainTempImg, descriptors,Size(1,1), Size(0,0)); //Hog特征計算 cout<<"HOG dims: "<<descriptors.size()<<endl; //打印Hog特征維數 ,這里是324 CvMat* SVMtrainMat=cvCreateMat(1,descriptors.size(),CV_32FC1); int n=0; for(vector<float>::iterator iter=descriptors.begin();iter!=descriptors.end();iter++) { cvmSet(SVMtrainMat,0,n,*iter); n++; } int ret = svm.predict(SVMtrainMat);//檢測結果 sprintf(result, "%d\r\n",ret ); cvNamedWindow("dst",1); cvShowImage("dst",test); MessageBox(NULL,result,TEXT("預測結果"),MB_OK); cvReleaseImage(&test); cvReleaseImage(&trainTempImg); return 0; }