計算機視覺中的詞袋模型(Bow,Bag-of-words)

Bag-of-words

讀 'xw20084898的專欄'的blog Bag-of-words model in computer vision

Bag-of-words 模型

之前教研室有個小伙伴在做文本方面的東西，經常提及詞袋模型，只知道是文本表示的一種，可是最近看的關於CV的論文中也出現BoW模型，就很好奇BoW到底是個什么東西。

BoW起始可以理解為一種直方圖統計，開始是用於自然語言處理和信息檢索中的一種簡單的文檔表示方法。和histogram 類似，BoW也只是統計頻率信息，並沒有序列信息。而和histogram不同的是，histogram一般統計的某個區間的頻數，BoW是選擇words字典，然后統計字典中每個單詞出現的次數。
比如下面兩個文檔

John likes to watch movies. Mary likes too.
John also likes to watch football games.

首先可以找出兩篇文檔中單詞的並集，作為dictionary

{"John":1, 'likes':2, "to":3, 'watch':4, 'movies':5, 'also':6, 'football':7, 'games':8, 'Mary':9, 'too':10}

那么兩篇文檔統計出來的BoW 向量就是
[1,2,1,1,1,0,0,0,1,1]
[1,1,1,1,0,1,1,1,0,0]

BoW model in CV

2003年以來，BoW出現在CV中，如圖像分類、圖像檢索等。
其大概過程首先提取圖像集特征的集合，然后通過聚類的方法聚出若干類，將這些類作為dictionary，即相當於words，最后每個圖像統計字典中words出現的頻數作為輸出向量，就可以用於后續的分類、檢索等操作。

以sift特征為例，假設圖像集中包含人臉、自行車、吉他等，我們首先對每幅圖像提取sift特征，然后使用如kmeans等聚類方法，進行聚類得到碼本(dictionary)

1477448323465.jpg

之后在每一幅圖像中統計sift特征點在碼本上的頻數分布，得到的向量就是該圖像的BoW向量。

1477448445032.jpg

最后就可以使用這些向量進行模式識別的其他操作了。

下圖中給出了一個整體的過程

1477448501616.jpg

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 視覺單詞模型、詞袋模型BoW 詞袋模型基本原理（Bag of words）視覺SLAM之詞袋（bag of words）模型與K-means聚類算法淺析（1） Bag-of-words模型、TF-IDF模型【計算機視覺】SIFT中LoG和DoG比較計算機視覺 - 語義分割（二）計算機視覺學習路線計算機視覺五大技術計算機視覺中的注意力機制總結計算機視覺之一：特征檢測