網址:http://thulac.thunlp.org/
THULAC(THU Lexical Analyzer for Chinese)由清華大學自然語言處理與社會人文計算實驗室研制推出的一套中文詞法分析工具包,具有中文分詞和詞性標注功能。THULAC具有如下幾個特點:
-
能力強。利用我們集成的目前世界上規模最大的人工分詞和詞性標注中文語料庫(約含5800萬字)訓練而成,模型標注能力強大。
-
准確率高。該工具包在標准數據集Chinese Treebank(CTB5)上分詞的F1值可達97.3%,詞性標注的F1值可達到92.9%,與該數據集上最好方法效果相當。
-
速度較快。同時進行分詞和詞性標注速度為300KB/s,每秒可處理約15萬字。只進行分詞速度可達到1.3MB/s。
python版(兼容python2.x和python3.x)
-
源代碼下載
將thulac文件放到目錄下,通過 import thulac 來引用 thulac需要模型的支持,需要將下載的模型放到thulac目錄下。
-
pip下載
sudo pip install thulac 通過 import thulac 來引用
import thulac thu1=thulac.thulac() text1=thu1.cut("通過python程序import thulac,新建thulac.thulac(args)類,其中args為程序的參數。之后可以通過調用thulac.cut()進行單句分詞",text=True) print(text1)