1. 前言

中文分詞≠自然語言處理！

中文分詞只是第一步；HanLP從中文分詞開始，覆蓋詞性標注、命名實體識別、句法分析、文本分類等常用任務，提供了豐富的API。

不同於一些簡陋的分詞類庫，HanLP精心優化了內部數據結構和IO接口，做到了毫秒級的冷啟動、千萬字符每秒的處理速度，而內存最低僅需120MB。無論是移動設備還是大型集群，都能獲得良好的體驗。

不同於市面上的商業工具，HanLP提供訓練模塊，可以在用戶的語料上訓練模型並替換默認模型，以適應不同的領域。項目主頁上提供了詳細的文檔，以及在一些開源語料上訓練的模型。

HanLP希望兼顧學術界的精准與工業界的效率，在兩者之間取一個平衡，真正將自然語言處理普及到生產環境中去。

我們使用的pyhanlp是用python包裝了HanLp的java接口。

2. pyhanlp的安裝和使用

2.1 python下安裝pyhanlp

pip安裝

sudo pip3 install pyhanlp

第一次import pyhanlp會下載一個比較大的數據集，需要耐心等待下，后面再import就不會有了。

from pyhanlp import *

詳情請見pyhanlp官方文檔

2.2 pyhanlp簡單使用方法

分詞使用

from pyhanlp import *
print(HanLP.segment("今天開心了嗎？"))
>>> [今天/t, 開心/a, 了/ule, 嗎/y, ？/w]

依存分析使用

from pyhanlp import *
print(HanLP.parseDependency("今天開心了嗎？"))
>>> 1	今天	今天	nt	t	_	2	狀中結構	_	_
>>> 2	開心	開心	a	a	_	0	核心關系	_	_
>>> 3	了	了	e	y	_	2	右附加關系	_	_
>>> 4	嗎	嗎	e	y	_	2	右附加關系	_	_
>>> 5	？	？	wp	w	_	2	標點符號	_	_

2.3 pyhanlp可視化

如果大家看不太清楚上面的輸出，pyhanlp提供了一個很好的展示交付界面，只要一句命令就能啟動一個web服務

hanlp serve

登錄http://localhost:8765就能看下可視化界面，能看到分詞結果和依存關系的結果，是不是很直觀。這個網頁上還有安裝說明、源碼鏈接、文檔鏈接、常見的問題（FAQ）。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 pytest 1.簡單介紹一，安裝和如何運行 iCarousel的簡單介紹及應用 WebRTC介紹及簡單應用 WebRTC介紹及簡單應用 Mahout介紹和簡單應用 WebRTC介紹及簡單應用 WebRTC介紹及簡單應用 1. 簡單介紹什么是 JSP 和 JSP工作原理、一些基本語法 Java的spi介紹和簡單應用深度學習介紹及簡單應用