前期准備
使用文本向量化的前提是要對文章進行分詞,分詞可以參考前一篇文章。然后將分好的詞進行向量化處理,以便計算機能夠識別文本。常見的文本向量化技術有詞頻統計技術、TF-IDF技術等。
詞頻統計技術
詞頻統計技術是很直觀的,文本被分詞之后。 用每一個詞作為維度key,有單詞對應的位置為1,其他為0,向量長度和詞典大小相同。然后給每個維度使用詞頻當作權值。詞頻統計技術默認出現頻率越高的詞權重越大。
舉例說明:
原文:
句子A:我喜歡看電視,不喜歡看電影。
句子B:我不喜歡看電視,也不喜歡看電影。
分詞結果:
句子A:我/喜歡/看/電視,不/喜歡/看/電影。
句子B:我/不/喜歡/看/電視,也/不/喜歡/看/電影。
列出維度:我,喜歡,看,電視,電影,不,也.
統計詞頻:
句子A:我 1,喜歡 2,看 2,電視 1,電影 1,不 1,也 0。
句子B:我 1,喜歡 2,看 2,電視 1,電影 1,不 2,也 1。
轉換為向量:
句子A:[1, 2, 2, 1, 1, 1, 0]
句子B:[1, 2, 2, 1, 1, 2, 1]
可以看出:詞頻統計技術直觀、簡單。但是有明顯的缺陷:中文中有的詞匯,如:“我”,“的”出現頻率很高,因此會賦予較高的權值,但是這些詞匯本身無意義。因此若要使用詞頻統計技術,必須要引入停用詞將這些無意義的詞匯進行過濾。
TF-IDF技術
TF-IDF技術就是為了克服詞頻統計技術的缺陷而產生的,它引入了“逆文檔頻率”概念,它衡量了一個詞的常見程度,TF-IDF的假設是:如果某個詞或短語在一篇文章中出現的頻率高,並且在其他文章中很少出,那么它很可能就反映了這篇文章的特性,因此要提高它的權值。
TF-IDF技術的需要維護一個語料庫或文件集用於計算每個詞的出現頻率,頻率越高的逆文檔頻率越小。語料庫可以是整個鐵路規章制度的集合,也可以是某個規章制度的全文。實踐證明,TF-IDF在分詞的時候,也需要剔除掉明顯的停用詞,這樣效果會比較好。
例如對於鐵路規章制度而言,文本中“列車”一次的詞頻必然會非常高,但是在其語料庫中出現的頻率會非常高,因此其權重反而會降低。