前期准備

使用文本向量化的前提是要對文章進行分詞，分詞可以參考前一篇文章。然后將分好的詞進行向量化處理，以便計算機能夠識別文本。常見的文本向量化技術有詞頻統計技術、TF-IDF技術等。

詞頻統計技術

詞頻統計技術是很直觀的，文本被分詞之后。用每一個詞作為維度key，有單詞對應的位置為1，其他為0，向量長度和詞典大小相同。然后給每個維度使用詞頻當作權值。詞頻統計技術默認出現頻率越高的詞權重越大。

舉例說明：

原文：

　　句子A：我喜歡看電視，不喜歡看電影。

　　句子B：我不喜歡看電視，也不喜歡看電影。

分詞結果：

　　句子A：我/喜歡/看/電視，不/喜歡/看/電影。

　　句子B：我/不/喜歡/看/電視，也/不/喜歡/看/電影。

列出維度：我，喜歡，看，電視，電影，不，也.

統計詞頻：

　　句子A：我 1，喜歡 2，看 2，電視 1，電影 1，不 1，也 0。

　　句子B：我 1，喜歡 2，看 2，電視 1，電影 1，不 2，也 1。

轉換為向量：

　　句子A：[1, 2, 2, 1, 1, 1, 0]

　　句子B：[1, 2, 2, 1, 1, 2, 1]

可以看出：詞頻統計技術直觀、簡單。但是有明顯的缺陷：中文中有的詞匯，如：“我”，“的”出現頻率很高，因此會賦予較高的權值，但是這些詞匯本身無意義。因此若要使用詞頻統計技術，必須要引入停用詞將這些無意義的詞匯進行過濾。

TF-IDF技術

TF-IDF技術就是為了克服詞頻統計技術的缺陷而產生的，它引入了“逆文檔頻率”概念，它衡量了一個詞的常見程度，TF-IDF的假設是：如果某個詞或短語在一篇文章中出現的頻率高，並且在其他文章中很少出，那么它很可能就反映了這篇文章的特性，因此要提高它的權值。
TF-IDF技術的需要維護一個語料庫或文件集用於計算每個詞的出現頻率，頻率越高的逆文檔頻率越小。語料庫可以是整個鐵路規章制度的集合，也可以是某個規章制度的全文。實踐證明，TF-IDF在分詞的時候，也需要剔除掉明顯的停用詞，這樣效果會比較好。

例如對於鐵路規章制度而言，文本中“列車”一次的詞頻必然會非常高，但是在其語料庫中出現的頻率會非常高，因此其權重反而會降低。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 自然語言處理--中文文本向量化counterVectorizer() 自然語言處理基礎技術之分詞、向量化、詞性標注用深度學習實現自然語言處理：word embedding，單詞向量化自然語言處理（六）詞向量知識圖譜系列---自然語言處理---分詞詞向量與文本分類自然語言處理——詞向量詞嵌入自然語言處理之文本分類自然語言處理之文本情感分類基於自然語言處理技術的智能電子病歷系統 [自然語言處理] 中文分詞技術