[自然語言處理] 文本向量化技術


前期准備

使用文本向量化的前提是要對文章進行分詞,分詞可以參考前一篇文章。然后將分好的詞進行向量化處理,以便計算機能夠識別文本。常見的文本向量化技術有詞頻統計技術、TF-IDF技術等。

詞頻統計技術

詞頻統計技術是很直觀的,文本被分詞之后。 用每一個詞作為維度key,有單詞對應的位置為1,其他為0,向量長度和詞典大小相同。然后給每個維度使用詞頻當作權值。詞頻統計技術默認出現頻率越高的詞權重越大。

舉例說明:

原文:

      句子A:我喜歡看電視,不喜歡看電影。

      句子B:我不喜歡看電視,也不喜歡看電影。

分詞結果:

      句子A:我/喜歡//電視,不/喜歡//電影。

      句子B:我//喜歡//電視,也//喜歡//電影。

列出維度:我,喜歡,看,電視,電影,不,也.

統計詞頻:

      句子A:我 1,喜歡 2,看 2,電視 1,電影 1,不 1,也 0

      句子B:我 1,喜歡 2,看 2,電視 1,電影 1,不 2,也 1

轉換為向量:

      句子A[1, 2, 2, 1, 1, 1, 0]

      句子B[1, 2, 2, 1, 1, 2, 1]

可以看出:詞頻統計技術直觀、簡單。但是有明顯的缺陷:中文中有的詞匯,如:“我”,“的”出現頻率很高,因此會賦予較高的權值,但是這些詞匯本身無意義。因此若要使用詞頻統計技術,必須要引入停用詞將這些無意義的詞匯進行過濾。

TF-IDF技術

TF-IDF技術就是為了克服詞頻統計技術的缺陷而產生的,它引入了“逆文檔頻率”概念,它衡量了一個詞的常見程度,TF-IDF的假設是:如果某個詞或短語在一篇文章中出現的頻率高,並且在其他文章中很少出,那么它很可能就反映了這篇文章的特性,因此要提高它的權值。
TF-IDF技術的需要維護一個語料庫或文件集用於計算每個詞的出現頻率,頻率越高的逆文檔頻率越小。語料庫可以是整個鐵路規章制度的集合,也可以是某個規章制度的全文。實踐證明,TF-IDF在分詞的時候,也需要剔除掉明顯的停用詞,這樣效果會比較好。

例如對於鐵路規章制度而言,文本中“列車”一次的詞頻必然會非常高,但是在其語料庫中出現的頻率會非常高,因此其權重反而會降低。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM