詞形變換和詞干提取工具(英文)


在信息檢索和文本挖掘中,需要對一個詞的不同形態進行歸並,即詞形規范化,從而提高文本處理的效率。例如:詞根run有不同的形式running、ran另外runner也和run有關。這里涉及到兩個概念:

詞形變化:把一個任何形式的語言詞匯還原為一般形式。(比如:cats--->cat,did--->do)

詞干提取:去除詞綴得到詞根的過程。(比如fisher--->fish,effective--->effect )

下面介紹幾個用着不錯的工具包:

詞形變換

TreeTagger

TreeTagger可以分析出文本中單詞的詞性(pos)和詞語原型(時態變換、單復數變換)

示例

Tom has left Beijing for about 100 days.

解析結果

注意

  • 不能解析的結果為<unknown>
  • 數字不能解析的結果為@card@
  • 可以處理的語言有英語、德語、法語

官網

http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/

使用(linux環境下)

下載工具包解壓后進入目錄cmd/,假設待處理的文件在“del”里,命令為

./tree-tagger-english del

詞干提取

nltk.stem模塊

很多詞干提取是基於Porter詞干提取算法寫出來的。Martin Porter在2000年發布了一個基於該算法的官方版本的免費應用軟件。他在自己的工作上進行延伸,建立了一個Snowball算法,是編寫詞干提取算法的框架,並實現了一個改良的英文詞干提取器可以同時提取一些其他語言。[維基]

示例

注意

  • 提取的詞干不一定正確,但是可以保證處理一致
  • 提取出來為萬國碼(u開頭)
  • 支持語言:丹麥語 荷蘭語 英語 芬蘭語 法語 德語語 匈牙利語 意大利語 挪威語 波特語 葡萄牙語 羅馬尼亞語 俄語 西班牙語 瑞典語

官方

http://nltk.org/api/nltk.stem.html

 

 

以下內容均摘自論文《詞形還原方法及實現工具比較分析》

詞形還原(lemmatization),是把一個任何形式的語言詞匯還原為一般形式(能表達完整語義),而詞干提取(stemming)是抽取詞的詞干或詞根形式(不一定能夠表達完整語義)。詞形還原和詞干提取是詞形規范化的兩類重要方式,都能夠達到有效歸並詞形的目的,二者既有聯系也有區別。

現將共同點和聯系總結為以下4方面:

  1. 目標一致。詞干提取和詞形還原的目標均為將詞的屈折形態或派生形態簡化或歸並為詞干(stem)或原形的基礎形式,都是一種對詞的不同形態的統一歸並的過程。
  2. 結果部分交叉。詞干提取和詞形還原不是互斥關系,其結果是有部分交叉的。一部分詞利用這兩類方法都能達到相同的詞形轉換效果。如“dogs”的詞干為“dog”,其原形也為“dog”。
  3. 主流實現方法類似。目前實現詞干提取和詞形還原的主流實現方法均是利用語言中存在的規則或利用詞典映射提取詞干或獲得詞的原形。
  4. 應用領域相似。主要應用於信息檢索和文本、自然語言處理等方面,二者均是這些應用的基本步驟。

二者的區別歸納為以下5方面:

  1. 在原理上,詞干提取主要是采用“縮減”的方法,將詞轉換為詞干,如將“cats”處理為“cat”,將“effective”處理為“effect”。而詞形還原主要采用“轉變”的方法,將詞轉變為其原形,如將“drove”處理為“drive”,將“driving”處理為“drive”。
  2. 在復雜性上,詞干提取方法相對簡單,詞形還原則需要返回詞的原形,需要對詞形進行分析,不僅要進行詞綴的轉化,還要進行詞性識別,區分相同詞形但原形不同的詞的差別。詞性標注的准確率也直接影響詞形還原的准確率,因此,詞形還原更為復雜。
  3. 在實現方法上,雖然詞干提取和詞形還原實現的主流方法類似,但二者在具體實現上各有側重。詞干提取的實現方法主要利用規則變化進行詞綴的去除和縮減,從而達到詞的簡化效果。詞形還原則相對較復雜,有復雜的形態變化,單純依據規則無法很好地完成。其更依賴於詞典,進行詞形變化和原形的映射,生成詞典中的有效詞。
  4. 在結果上,詞干提取和詞形還原也有部分區別。詞干提取的結果可能並不是完整的、具有意義的詞,而只是詞的一部分,如“revival”詞干提取的結果為“reviv”,“ailiner”詞干提取的結果為“airlin”。而經詞形還原處理后獲得的結果是具有一定意義的、完整的詞,一般為詞典中的有效詞。
  5. 在應用領域上,同樣各有側重。雖然二者均被應用於信息檢索和文本處理中,但側重不同。詞干提取更多被應用於信息檢索領域,如Solr、Lucene等,用於擴展檢索,粒度較粗。詞形還原更主要被應用於文本挖掘、自然語言處理,用於更細粒度、更為准確的文本分析和表達

相對而言,詞干提取是簡單的輕量級的詞形歸並方式,最后獲得的結果為詞干,並不一定具有實際意義。詞形還原處理相對復雜,獲得結果為詞的原形,能夠承載一定意義,與詞干提取相比,更具有研究和應用價值。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM