Bow模型(解釋的很好)


Bag-of-words model (BoW model) 最早出現在NLP和IR領域. 該模型忽略掉文本的語法和語序, 用一組無序的單詞(words)來表達一段文字或一個文檔. 近年來, BoW模型被廣泛應用於計算機視覺中. 與應用於文本的BoW類比, 圖像的特征(feature)被當作單詞(Word).

引子: 應用於文本的BoW model

Wikipedia[1]上給出了如下例子:

   John likes to watch movies. Mary likes too.

   John also likes to watch football games.

根據上述兩句話中出現的單詞, 我們能構建出一個字典 (dictionary):

{"John": 1, "likes": 2, "to": 3, "watch": 4, "movies": 5, "also": 6, "football": 7, "games": 8, "Mary": 9, "too": 10}

該字典中包含10個單詞, 每個單詞有唯一索引, 注意它們的順序和出現在句子中的順序沒有關聯. 根據這個字典, 我們能將上述兩句話重新表達為下述兩個向量:

 

  [1, 2, 1, 1, 1, 0, 0, 0, 1, 1]

  [1, 1, 1, 1, 0, 1, 1, 1, 0, 0]

 

這兩個向量共包含10個元素, 其中第i個元素表示字典中第i個單詞在句子中出現的次數. 因此BoW模型可認為是一種統計直方圖 (histogram). 在文本檢索和處理應用中, 可以通過該模型很方便的計算詞頻.

應用於計算機視覺的BoW model[2]

Fei-fei Li[3]在中提出了用BoW模型表達圖像的方法. 他們認為, 圖像可以類比為文檔(document), 圖像中的單詞(words)可以定義為一個圖像塊(image patch)的特征向量. 那么圖像的BoW模型即是 “圖像中所有圖像塊的特征向量得到的直方圖”. 建立BoW模型主要分為如下幾個步驟:

1. 特征提取

假設有N張圖像, 第i張圖像圖像可由n(i)個image patch組成, 也即可以由n(i)個特征向量表達. 則總共能得到sum(n(i))個特征向量(即單詞).

特征向量可以根據特征問題自行設計, 常用特征有Color histogram, SIFT, LBP等.

2. 生成字典/碼本(codebook)

對上一步得到的特征向量進行聚類(可以使用K-means等聚類方法), 得到K個聚類中心, 用聚類中心構建碼本.

3. 根據碼本生成直方圖

對每張圖片, 通過最近鄰計算該圖片的每個 “單詞”應該屬於codebook中的 “哪一類”單詞, 從而得到該圖片對應於該碼本的BoW表示.

Reference

[1].   Bag-of-words model. (2012, November 30). In Wikipedia, The Free Encyclopedia. Retrieved 11:48, December 3, 2012, from http://en.wikipedia.org/w/index.php?title=Bag-of-words_model&oldid=525730564

[2].   Bag-of-words model in computer vision. (2012, October 11). In Wikipedia, The Free Encyclopedia. Retrieved 11:50, December 3, 2012, fromhttp://en.wikipedia.org/w/index.php?title=Bag-of-words_model_in_computer_vision&oldid=517192612

[3].   L. Fei-Fei and P. Perona (2005). "A Bayesian Hierarchical Model for Learning Natural Scene Categories"Proc. of IEEE Computer Vision and Pattern Recognition. pp. 524–531.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM