Hanlp安裝
- pip安裝 :pip install pyhanlp
(一般pypi不太穩定,較容易安裝失敗,之后一般安裝python的第三方庫都是有國內的鏡像 ,一般的在 pip命令后加 -i http://pypi.douban.com/simple --trusted-host pypi.douban.com (豆瓣)就可以,還有好多,比如清華、阿里雲等等)
其實也可以在網上找已經編譯好的“輪子”進行安裝(由於沒有用到,大家自行研究)
- 兩點說明
- 一般安裝失敗的話,可能是缺少jpype1這個Python包,就需要安裝Anaconda,安裝完成后直接pip就好了
- 一般安裝后不能直接使用,還要下載類似數據字典的文件(一般在首次使用的時候會自動安裝,會提示下載鏈接,安裝路徑;本人建議根據鏈接用下載器下載后放到安裝路徑)
Hanlp的使用
# 測試文本 s = "華為創立於1987年,是全球領先的ICT(信息與通信)基礎設施和智能終端提供商,我們致力於把數字世界帶入每個人、" \ "每個家庭、每個組織,構建萬物互聯的智能世界。目前華為有19.4萬員工,業務遍及170多個國家和地區,服務30多億人口。" \ "我們在通信網絡、IT、智能終端和雲服務等領域為客戶提供有競爭力、安全可信賴的產品、解決方案與服務,與生態伙伴" \ "開放合作,持續為客戶創造價值,釋放個人潛能,豐富家庭生活,激發組織創新。華為堅持圍繞客戶需求持續創新,加大基" \ "礎研究投入,厚積薄發,推動世界進步。"
- 切詞
# 切詞 print(HanLP.segment(s)) #結果 [華為/nt, 創立/v, 於/p, 1987/m, 年/qt, ,/w, 是/vshi, 全球/n, 領先/vi, 的/ude1, ICT/nx, (/w, 信息/n, 與/cc, 通信/vn, )/w, 基礎設施/gi, 和/cc, 智能終端/gi, 提供商/n, ,/w,
我們/rr, 致力於/v, 把/pba, 數字/n, 世界/n, 帶入/v, 每個/mq, 人/n, 、/w, 每個/mq, 家庭/n, 、/w, 每個/mq, 組織/n, ,/w, 構建/v, 萬物/n, 互聯/vi, 的/ude1, 智能/n, 世界/n, 。/w,
目前/t, 華為/nt, 有/vyou, 19.4/m, 萬/m, 員工/n, ,/w, 業務/n, 遍及/v, 170/m, 多/a, 個/q, 國家/n, 和/cc, 地區/n, ,/w, 服務/vn, 30/m, 多/a, 億/m, 人口/n, 。/w, 我們/rr, 在/p,
通信/vn, 網絡/n, 、/w, IT/nx, 、/w, 智能終端/gi, 和/cc, 雲/vg, 服務/vn, 等/udeng, 領域/n, 為/p, 客戶/n, 提供/v, 有/vyou, 競爭力/n, 、/w, 安全/an, 可信賴/nz, 的/ude1, 產品/n,
、/w, 解決方案/gi, 與/cc, 服務/vn, ,/w, 與/cc, 生態/n, 伙伴/n, 開放/v, 合作/vn, ,/w, 持續/vd, 為/p, 客戶/n, 創造/v, 價值/n, ,/w, 釋放/v, 個人/n, 潛能/n, ,/w, 豐富/a, 家庭/n
, 生活/vn, ,/w, 激發/v, 組織/n, 創新/vi, 。/w, 華為/nt, 堅持/v, 圍繞/v, 客戶/n, 需求/n, 持續/vd, 創新/vi, ,/w, 加大/v, 基礎/n, 研究/vn, 投入/v, ,/w, 厚積薄發/vl, ,/w, 推動/v,
世界/n, 進步/vn, 。/w]
- 自定義字典
# 自定義字典 CustomDictionary.add("基礎研究", "n") print(HanLP.segment(s)) # 結果 [華為/nt, 創立/v, 於/p, 1987/m, 年/qt, ,/w, 是/vshi, 全球/n, 領先/vi, 的/ude1, ICT/nx, (/w, 信息/n, 與/cc, 通信/vn, )/w, 基礎設施/gi, 和/cc, 智能終端/gi, 提供商/n, ,/w, 我們/rr, 致力於/v, 把/pba, 數字/n, 世界/n, 帶入/v, 每個/mq, 人/n, 、/w, 每個/mq, 家庭/n, 、/w, 每個/mq, 組織/n, ,/w, 構建/v, 萬物/n, 互聯/vi, 的/ude1, 智能/n, 世界/n, 。/w, 目前/t, 華為/nt, 有/vyou, 19.4/m, 萬/m, 員工/n, ,/w, 業務/n, 遍及/v, 170/m, 多/a, 個/q, 國家/n, 和/cc, 地區/n, ,/w, 服務/vn, 30/m, 多/a, 億/m, 人口/n, 。/w, 我們/rr, 在/p, 通信/vn, 網絡/n, 、/w, IT/nx, 、/w, 智能終端/gi, 和/cc, 雲/vg, 服務/vn, 等/udeng, 領域/n, 為/p, 客戶/n, 提供/v, 有/vyou, 競爭力/n, 、/w, 安全/an, 可信賴/nz, 的/ude1, 產品/n, 、/w, 解決方案/gi, 與/cc, 服務/vn, ,/w, 與/cc, 生態/n, 伙伴/n, 開放/v, 合作/vn, ,/w, 持續/vd, 為/p, 客戶/n, 創造/v, 價值/n, ,/w, 釋放/v, 個人/n, 潛能/n, ,/w, 豐富/a, 家庭/n, 生活/vn, ,/w, 激發/v, 組織/n, 創新/vi, 。/w, 華為/nt, 堅持/v, 圍繞/v, 客戶/n, 需求/n, 持續/vd, 創新/vi, ,/w, 加大/v, 基礎研究/n, 投入/v, ,/w, 厚積薄發/vl, ,/w, 推動/v, 世界/n, 進步/vn, 。/w]
- 關鍵詞提取
# 關鍵詞提取 print(HanLP.extractKeyword(s, 5)) # 結果 [服務, 客戶, 世界, 華為, 通信]
- 摘要提取
# 摘要提取 print(HanLP.extractSummary(s, 3)) # 結果 [華為堅持圍繞客戶需求持續創新, 我們致力於把數字世界帶入每個人、每個家庭、每個組織, 我們在通信網絡、IT、智能終端和雲服務等領域為客戶提供有競爭力、安全可信賴的產品、解決方案與服務]
- 短語提取
# 短語提取 print(HanLP.extractPhrase(s, 5)) # 結果 [加大基礎研究, 基礎研究投入, 智能終端提供商, 萬物互聯, 可信賴產品]
通過我的使用,給我的感覺:HanLp比jieba好用。本人分享,歡迎大家指教