THULAC：一個高效的中文詞法分析工具包（z'z）

本文轉載自查看原文 2017-07-10 12:30 1905

網址：http://thulac.thunlp.org/

THULAC（THU Lexical Analyzer for Chinese）由清華大學自然語言處理與社會人文計算實驗室研制推出的一套中文詞法分析工具包，具有中文分詞和詞性標注功能。THULAC具有如下幾個特點：

能力強。利用我們集成的目前世界上規模最大的人工分詞和詞性標注中文語料庫（約含5800萬字）訓練而成，模型標注能力強大。
准確率高。該工具包在標准數據集Chinese Treebank（CTB5）上分詞的F1值可達97.3％，詞性標注的F1值可達到92.9％，與該數據集上最好方法效果相當。
速度較快。同時進行分詞和詞性標注速度為300KB/s，每秒可處理約15萬字。只進行分詞速度可達到1.3MB/s。

python版（兼容python2.x和python3.x）

源代碼下載

將thulac文件放到目錄下，通過 import thulac 來引用
thulac需要模型的支持，需要將下載的模型放到thulac目錄下。

pip下載

sudo pip install thulac
通過 import thulac 來引用

import thulac

thu1=thulac.thulac()

text1=thu1.cut("通過python程序import thulac，新建thulac.thulac(args)類，其中args為程序的參數。之后可以通過調用thulac.cut()進行單句分詞",text=True)

print(text1)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 paddlepaddle中文詞法分析LAC Hanlp分詞之CRF中文詞法分析詳解 js詞法分析詞法分析程序詞法分析 PL/0 詞法分析 pkuseg：一個多領域中文分詞工具包 [撒花\*/]百度詞法分析工具LAC 詞法分析器生成工具lex使用從零寫一個編譯器（一）：輸入系統和詞法分析