THULAC:一個高效的中文詞法分析工具包(z'z)


網址:http://thulac.thunlp.org/

THULAC(THU Lexical Analyzer for Chinese)由清華大學自然語言處理與社會人文計算實驗室研制推出的一套中文詞法分析工具包,具有中文分詞和詞性標注功能。THULAC具有如下幾個特點:

  1. 能力強。利用我們集成的目前世界上規模最大的人工分詞和詞性標注中文語料庫(約含5800萬字)訓練而成,模型標注能力強大。

  2. 准確率高。該工具包在標准數據集Chinese Treebank(CTB5)上分詞的F1值可達97.3%,詞性標注的F1值可達到92.9%,與該數據集上最好方法效果相當。

  3. 速度較快。同時進行分詞和詞性標注速度為300KB/s,每秒可處理約15萬字。只進行分詞速度可達到1.3MB/s。

 

python版(兼容python2.x和python3.x)

  1. 源代碼下載

    將thulac文件放到目錄下,通過 import thulac 來引用
    thulac需要模型的支持,需要將下載的模型放到thulac目錄下。
  2. pip下載

    sudo pip install thulac
    通過 import thulac 來引用

    import thulac
    
    thu1=thulac.thulac()
    
    text1=thu1.cut("通過python程序import thulac,新建thulac.thulac(args)類,其中args為程序的參數。之后可以通過調用thulac.cut()進行單句分詞",text=True)
    
    print(text1)

     




免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM