1 最有影響力的30篇計算機視覺會議論文
選取論文的原則:
(1)會議論文,主要來源於以下會議:CVPR, ICCV, ECCV, BMVC, FG, ICIP, ICPR, WACV, ICASSP, MM, IJCAI, UAI, AAAI…(其實后面的幾個會議都是打醬油的,AI類的期刊也木有高引CV文章,事實也是如此,沒有收錄ICML和NIPS等,見諒)
(2)發表在2000年以后,數據來源於微軟學術搜索(http://academic.research.microsoft.com/),2012年12月初的檢索結果
(3)檢索次數大於200,PER>50,微軟學術搜索的被檢索次數未必精確,但能反應大概趨勢,PER指意味着每年檢索量,自發表次年算到2012年,PER=Cited/(2012-YEAR)
榜單Top 30如下,歡迎拾遺補缺:
[1] Rapid Object Detection using a Boosted Cascade of Simple Features (Citations: 3296, PER=299.64)
Paul A. Viola, Michael J. Jones @CVPR , vol. 1, pp. 511-518, 2001
[2] Histograms of Oriented Gradients for Human Detection (Citations: 1704, PER=243.43)
Navneet Dalal, Bill Triggs @CVPR , vol. 1, pp. 886-893, 2005
[3] SURF: Speeded-Up Robust Features (Citations: 1054, PER=175.67)
Herbert Bay, Tinne Tuytelaars, Luc J. Van Gool @ECCV , pp. 404-417, 2006
[4] Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories (Citations: 873, PER=145.5)
Svetlana Lazebnik, Cordelia Schmid, Jean Ponce @CVPR , vol. 2, pp. 2169-2178, 2006
[5] Object Class Recognition by Unsupervised Scale-Invariant Learning (Citations: 1071, PER=119)
Robert Fergus, Pietro Perona, Andrew Zisserman @CVPR , vol. 2, pp. 264-271, 2003
[6] Robust Real-Time Face Detection (Citations: 1092, PER=99.27)
Paul A. Viola, Michael J. Jones @ ICCV , 2001
[7] A Bayesian hierarchical model for learning natural scene categories (Citations: 677, PER=96.71)
Fei-Fei Li, Pietro Perona @CVPR , vol. 2, pp. 524-531, 2005
[8] Scalable Recognition with a Vocabulary Tree (Citations: 570, PER=95)
David Nistér, Henrik Stewénius @CVPR , vol. 2, pp. 2161-2168, 2006
[9] Real-Time Tracking of Non-Rigid Objects Using Mean Shift (Citations: 1132, PER=94.33)
Dorin Comaniciu, Visvanathan Ramesh, Peter Meer @CVPR , vol. 2, pp. 2142-149 vol.2, 2000
[10]Visual Categorization with Bags of Keypoints (Citations: 745, PER=93.13)
Gabriella Csurka, Christopher R. Dance, Lixin Fan, etc @ECCV , 2004
[11]Video Google: A Text Retrieval Approach to Object Matching in Videos (Citations: 790, PER=87.78)
Josef Sivic, Andrew Zisserman @ ICCV , pp. 1470-1477, 2003
[12]What Energy Functions Can Be Minimized via Graph Cuts? (Citations: 842, PER=84.2)
Vladimir Kolmogorov, Ramin Zabih @ECCV , pp. 65-81, 2002
[13]Overview of the Face Recognition Grand Challenge (Citations: 578, PER=82.57)
P. Jonathon Phillips, Patrick J. Flynn, W. Todd Scruggs, etc @CVPR , vol. 1, pp. 947-954, 2005
[14]Robust wide baseline stereo from maximally stable extremal regions (Citations: 810, PER=81)
Jiri Matas, Ondrej Chum, Martin Urban, etc @BMVC , vol. 1, 2002
[15]PCA-SIFT: A More Distinctive Representation for Local Image Descriptors (Citations: 639, PER=79.88)
Yan Ke, Rahul Sukthankar @CVPR , vol. 2, pp. 506-513, 2004
[16]Interactive Graph Cuts for Optimal Boundary and Region Segmentation of Objects in ND Images (Citations: 796, PER=72.36)
Yuri Y. Boykov, Marie-pierre Jolly @ ICCV , pp. 105-112, 2001
[17]An extended set of Haar-like features for rapid object detection (Citations: 710, PER=71)
Rainer Lienhart, Jochen Maydt @ICIP , vol. 1, pp. 900-903, 2002
[18]A Database of Human Segmented Natural Images and its Application to Evaluating Segmentation Algorithms and Measuring Ecological Statistics(Citations: 750, PER=68.18)
David R. Martin, Charless Fowlkes, Doron Tal, etc @ ICCV , pp. 416-425, 2001
[19]Detecting Pedestrians Using Patterns of Motion and Appearance (Citations: 584, PER=64.89)
Paul A. Viola, Michael J. Jones, Daniel Snow @ ICCV , pp. 734-741, 2003
[20]Object Recognition as Machine Translation: Learning a Lexicon for a Fixed Image Vocabulary (Citations: 603, PER=60.3)
Pinar Duygulu, Kobus Barnard, João F. G. De Freitas, etc @ECCV , pp. 97-112, 2002
[21]Real-Time Simultaneous Localisation and Mapping with a Single Camera (Citations: 527, PER=58.56)
Andrew J. Davison @ ICCV , pp. 1403-1410, 2003
[22]Recognizing Human Actions: A Local SVM Approach (Citations: 440, PER=55)
Christian Schüldt, Ivan Laptev, Barbara Caputo @ICPR , pp. 32-36, 2004
[23]Actions as Space-Time Shapes (Citations: 379, PER=54.14)
Moshe Blank, Lena Gorelick, Eli Shechtman, etc @ ICCV , vol. 2, pp. 1395-1402, 2005
[24]A Discriminatively Trained, Multiscale, Deformable Part Model (Citations: 215, PER=53.75)
Pedro F. Felzenszwalb, David A. Mcallester, Deva Ramanan @CVPR , pp. 1-8, 2008
[25]Non-parametric Model for Background Subtraction (Citations: 642, PER=53.5)
Ahmed M. Elgammal, David Harwood, Larry S. Davis @ECCV , pp. 751-767, 2000
[26]A Comparison and Evaluation of Multi-View Stereo Reconstruction Algorithms (Citations: 318, PER=53)
Steven M. Seitz, Brian Curless, James Diebel, etc @CVPR , vol. 1, pp. 519-528, 2006
[27]Comprehensive Database for Facial Expression Analysis (Citations: 636, PER=53)
Takeo Kanade, Yingli Tian, Jeffrey F. Cohn @FG , pp. 46-53, 2000
[28]Learning Realistic Human Actions from Movies (Citations: 211, PER=52.75)
Ivan Laptev, Marcin Marszalek, Cordelia Schmid, etc @CVPR , pp. 1-8, 2008
[29]Object Retrieval with Large Vocabularies and Fast Spatial Matching (Citations: 258, PER=51.6)
James Philbin, Ondrej Chum, Michael Isard, etc @CVPR , 2007
[30]Statistical Shape Influence in Geodesic Active Contours (Citations: 616, PER=51.33)
Michael E. Leventon, W. Eric L. Grimson, Olivier D. Faugeras @CVPR , vol. 1, pp. 1316-1323, 2000
簡單小結:
總共30篇會議文章,其中CVPR 14篇,ECCV 5篇,ICCV 7篇,BMVC、FG、ICIP、ICPR各1篇。每年發表的論文數如圖所示。
個人比較關注3個方面,(1)檢測Detection(比如基於Harr-like的Viola-Jones的3篇文章,[1][6][19],還有[17],基於HOG的[2],以及在PASCAL VOC上大放光芒的DPM[24]);(2)基於Bag of Words (Features)和LDA的圖像檢索Retrieval和類別學習Categorization(比如基於BoW的[10][11],之后的[8][29],以及非常流行的SPM[4],基於LDA的[7]等);(3)特征Features,比如說提到的Harr-like,SURF[3],HOG[2],MSER[14],PCA-SIFT[15]等。
值得注意的是,排在前面的大部分作者,都是CV界的成名人物,非常值得關注他們的其他一些論文。
PS:[12]的作者Ramin Zabih從TPAMI的主編位置上退下,[20]的作者David Forsyth成為TPAMI新的掌舵者,大家有什么看法?
最后額外推薦幾篇ML的方法,來自於ICML和NIPS。
[1] Reinforcement learning: An introduction (Citations: 5592)
Richard S. Sutton, Andrew G. Barto @NIPS , vol. 9, no. 5, pp. 1054-1054, 1998
[2] Experiments with a New Boosting Algorithm (Citations: 2489)
Yoav Freund, Robert E. Schapire @ICML , pp. 148-156, 1996
[3] Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data (Citations: 2436)
John D. Lafferty, Andrew McCallum, Fernando C. N. Pereira @ICML , pp. 282-289, 2001
[4] Latent Dirichlet Allocation (Citations: 1548)
David M. Blei, Andrew Y. Ng, Michael I. Jordan @NIPS , pp. 601-608, 2001
[5] On Spectral Clustering: Analysis and an algorithm (Citations: 1230)
Andrew Y. Ng, Michael I. Jordan, Yair Weiss @NIPS , pp. 849-856, 2001
[6] Algorithms for Nonnegative Matrix Factorization (Citations: 1162)
Daniel D. Lee, H. Sebastian Seung @NIPS , vol. 13, pp. 556-562, 2000
[7] Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (Citations: 665)
Xiaojin Zhu, Zoubin Ghahramani, John D. Lafferty @ICML , pp. 912-919, 2003
2 最有影響力的20篇計算機視覺期刊論文
選取論文的原則:
(1)期刊論文,主要來源於以下期刊:TPAMI,IJCV,TIP,CVIU,IVC,MVA,PR,JMIV,IJPRAI…
(2)發表在2000年以后
(3)SCI檢索次數大於1000,來源於Web of Science數據庫,2012年12月初的檢索結果
Top 20 榜單原文請見http://www.cnblogs.com/youth0826/archive/2012/12/04/2801481.html
看了一下這20篇博文,總體上感覺很熟悉,很多文章確實是視覺領域2000年以來的重要工作,於是就很想聊一下自己的看法,和大家交流。
我簡單按照所屬領域划分統計了一下,其中:
與人臉檢測識別直接相關的有3篇,間接相關的1篇,直接相關的包括:7(基於adaboost的人臉檢測),19(人臉檢測的綜述),12(經典的人臉識別測試集FERET的說明),間接相關的是AAM,AAM是人臉alignment的最經典文章,但是由於其提出時並沒有現定於人臉,所以划分為間接相關;
與局部描述子直接相關的有3篇,分別是1(sift),15(local descriptor的綜述),17(LBP);
與立體視覺相關的有3篇:9(攝像機標注方法),10(圖像配准綜述),14(這篇文章我不熟悉,所以這樣划分是否合理也不是很確信);
與圖像分割直接相關的有2篇,間接相關的有1篇,直接相關的包括:2(normlized cut),13(graph-cut的應用),間接相關的是4(mean-shift),mean-shfit可以應用於圖像分割,也可以應用於目標跟蹤,算是間接相關;
與物體檢測跟蹤(為了簡單,把檢測和跟蹤划分到一起,其實這兩類方法在思路上差別很大,單獨划分更合理,但是從功能角度確實很相似)直接相關的2篇,間接相關的有1篇:3(基於輪廓的物體檢測方法),16(基於kernel的tracking方法)一篇是檢測,一篇是跟蹤,而基於mean-shift的跟蹤方法是particle filter之前最經典的方法,算是間接相關;
與圖像檢索匹配相關的文章2篇:6(綜述),11(shape context);
此外還包括一篇統計模式識別的綜述(8);
一篇圖像質量評估的方法(5);
行為識別:18(一篇關於行為識別的系統的文章,用到了跟蹤、攝像機標定、行為識別等);
(其中mean-shift被計算了兩次,所以和是21篇)
按照每個領域的文章數量由多到少的順序我講一下自己的觀點:
人臉識別領域的論文出現次數最多(這可能和我自己重點關注人臉識別領域有關),是讓我比較意外的,不過這說明從2000年開始,人臉識別方法得到了大家的重點關注,是視覺領域的一個熱點。這幾篇文章中,viola的基於adaboost+haar的人臉檢測方法是經典中的經典,其思想不僅被廣泛應用於物體檢測領域,同時,在啟發了狠多特征選擇領域的工作,同時,也幫助adaboost一躍成為和svm並列的兩大machine learning利器,我一直認為這篇文章和和lowe的sift都是視覺領域工程方面的經典之作;而AAM方法,也是十分重要的模型,尤其是對於臉部特征點定位而言,基於aam的改進工作極大促進了特征點定位的精度,其實這種全局形狀約束+局部表觀模型的思路在其他如物體檢測領域也有很多類似思路;局部描述子,基本上是視覺領域表示方面十年來最大的一個亮點和趨勢。我們知道模式識別包含兩個方面的內容,一個是特征提取,用於提供更有鑒別力的表示,一個是機器學習,用來對於特征表示之后的數據上學習得到分類模型。而局部描述子已經成為特征表示的一個共識,無論是物體匹配檢索、物體檢測識別,采用多種局部描述子表示已經成為基本選擇。而這其中,sift無疑是影響最大的工作之一,其在物體匹配、物體檢索、物體檢測、物體識別等領域都有大量應用。而LBP特征,作為一種局部描述特征,是繼Gabor之后最重要的紋理描述特征(當然,sift的變種hog也是之一),其有很多變種,在人臉識別、物體檢測、目標分類領域也得到了大量應用;
立體視覺我不熟悉,我就不獻丑了。對於9和14兩篇文章有這么高的引用率,不知道誰能講講背后的背景?
圖像分割可以通過將分割問題看作是一個分組問題,然后定義一個優化目標,通過最優化這個目標來得到最優的模型參數。而graph-cut,是將每個pixel看作圖中的一個節點,將圖像分割轉化為一個圖分割問題。而graph-cut是通過最小分割和最小流來得到一個最優模型,2(normlized-cut)是為了克服graph-cut的缺點的一種改進,第2高的引用率應該說明這種方法可以應用於很多領域,包括圖像分割和聚類。物體檢測跟蹤領域是一個十分活躍的領域,而3和16有這么高的引用率很出乎我的意料,因為這兩種思路在最近基本都不算是主流思路,也許是當年曾經火過一段時間吧;物體檢測識別的經典思路應該有兩種,一種是基於滑動窗口搜索的,就是viola人臉檢測文章中使用過的,后來,有基於hog+svm的行人檢測的經典論文也是相近的框架,還有一種是基於圖像全局表示的,經典的方法是基於bag of word的方法,在圖像檢測、圖像分類、圖像檢索等領域都有重要應用;而跟蹤的方法,比較經典的包括基於mean shift的方法,基於particle filter的方法,以及基於online-learning的方法,而后來的發展,也越來越將detection和tracking結合到一起,將二者結合到一個框架,其本質思想就是把tracking看作是一個區分前景目標和背景目標的分類問題,而detection提供了前景目標的off-line模型,tracking提供了on-line模型。這個領域論文很多,有一篇綜述寫得還不錯。圖像檢索是當前視覺領域一個十分熱的方向,在搜索引擎、購物等領域受到很多關注;而6和11遠遠不能涵蓋這個領域的經典。11是早期物體匹配的經典方法,但是,現在用的已經很少。而這方面的最經典工作還應該是基於bag of word的工作。這個工作借鑒了文字搜索領域的工作,通過視覺詞將圖像轉化為類似文字中的文章,視覺特征用視覺詞頻表示,然后通過倒排的方式,使得大規模圖像檢索成為可能。其它的三篇文章,8作為綜述,確實沒有什么疑問。5有這么高的引用,我有點迷惑。圖像質量評估雖然在實際中十分重要,但是是個不太活躍的領域,有這么高的應用有點意外。18的工作比較早,當時能提出基於跟蹤、攝像機標定、行為識別和事件檢測這樣的框架,確實有很棒的前瞻性,可能是因為近幾年智能視頻監控應用火熱之后,做這個方向的工作多起來的原因吧。
一點建議:
1 建議將綜述排除出去,20篇論文里面有5篇綜述,雖然綜述很重要,5篇也不是很多,但是在引用次數上綜述確實會占很大便宜,建議將綜述排除出去,只對提出新方法的文章單獨排名,才能讓大家對哪些新方法的影響力最廣更了解;
2 我不知道這個排名方法是否存在瑕疵,或者是數據是否完全正確,因為我覺得從目前的結論來看,這20篇文章還不能算是最有影響力的20篇;
原文:https://blog.csdn.net/tiandijun/article/details/48949463