空間金字塔方法表示圖像

本文轉載自查看原文 2016-10-11 18:51 3198 Computer vision/ Image processing

轉自：http://www.mamicode.com/info-detail-903166.html

本文學習自CVPR論文《Discriminative Spatial Pyramid》、《Discriminative Spatial Saliency for Image Classification》及《Beyond Bags of Features: Spatial Pyramid Matching
for Recognizing Natural Scene Categories》，在此感謝論文作者。

空間金字塔方法表示圖像是傳統BOF(Bag Of Features)方法的改進，傳統BOF方法提取圖像特征時，首先提取每張圖像的SIFT特征描述，之后將所有圖像的興趣點的特征描述進行聚類形成BOW視覺詞袋，最后對每張圖像統計所有視覺關鍵詞出現的頻次。因此BOF是在整張圖像中計算特征點的分布特征，進而生成全局直方圖，所以會丟失圖像的空間分布信息，無法對圖像進行精確地識別。為了克服BOF的這一缺點，提出了空間金字塔方法，它是在不同分辨率上統計圖像特征點分布，從而獲取圖像的空間信息。圖像被划分為金字塔各水平上的逐漸精細的網格序列，從每個網格中導出特征並組合為一個很大的特征向量。

1、圖像尺度空間

SIFT中的圖像尺度空間可以理解為用高斯對圖像做了卷積，圖像的分辨率還是那么大，像素還是那么多，只是細節被平均（平滑）掉了，原因就是高斯了，用周圍的信號比較弱的像素和中間那個信號比較強的點做平均，平均值當然比最強信號值小了，這就起到了平滑的作用。如下圖所示：

技術分享

尺度可變高斯函數：

技術分享

2、圖像金字塔

金字塔是圖像多尺度表示的主要形式，圖像金字塔是以多分辨率來解釋圖像的一種有效但概念簡單的結構。一幅圖像的金字塔是一系列以金字塔形狀排列的分辨率逐步降低的圖像集合。如下圖所示。

技術分享

圖像金字塔化一般包括二個步驟：1、利用低通濾波器平滑圖像；2、對平滑圖像進行抽樣，從而得到一系列尺寸縮小的圖像。

3、空間金字塔表示圖像

《Discriminative Spatial Pyramid》

原始方法是首先提取原圖像的全局特征，然后在每個金字塔水平把圖像划分為細網格序列，從每個金字塔水平的每個網格中提取出特征，並把它們連接成一個大特征向量。但由於圖像中每個局部區域反映的信息量不同，由此提出加權空間金字塔方法，及給每層每網格分配一個權重，按權重把每層每網格特征加權串聯在一起。如下圖：技術分享