思知分詞工具 jiagu的簡單上手

本文轉載自查看原文 2020-02-03 20:05 835 PYTHON基礎及算法

# 快速上手：分詞、詞性標注、命名實體識別
import jiagu

# jiagu.init() # 可手動初始化，也可以動態初始化

text = '廈門明天會不會下雨'

words = jiagu.seg(text)  # 分詞
print(words)

pos = jiagu.pos(words)  # 詞性標注
print(pos)

ner = jiagu.ner(words)  # 命名實體識別
print(ner)


# 中文分詞
# 自定義分詞模型（將單獨提供msr、pku、cnc等分詞標准）


# 獨立標准模型路徑
# msr：test/extra_data/model/msr.model
# pku：test/extra_data/model/pku.model
# cnc：test/extra_data/model/cnc.model

jiagu.load_model('test/extra_data/model/cnc.model') # 使用國家語委分詞標准

words = jiagu.cut('結婚的和尚未結婚的')

print(words)

# 分詞各種模式使用方式


text = '漢服和服裝、知識圖譜機器人'

words = jiagu.cut(text) # 深度學習分詞
print(words)

words = jiagu.seg(text) # 字典分詞
print(words)

# jiagu.load_userdict('dict/user.dict') # 加載自定義字典，支持字典路徑、字典列表形式。
jiagu.load_userdict(['知識圖譜'])

words = jiagu.seg(text) # 自定義分詞，字典分詞模式有效
print(words)



# 知識圖譜關系抽取

# 吻別是由張學友演唱的一首歌曲。
# 蘇州大學（Soochow University），簡稱“蘇大”，坐落於歷史文化名城蘇州。
# 《盜墓筆記》是2014年歡瑞世紀影視傳媒股份有限公司出品的一部網絡季播劇，改編自南派三叔所著的同名小說，由鄭保瑞和羅永昌聯合導演，李易峰、楊洋、唐嫣、劉天佐、張智堯、魏巍等主演。
# 姚明（Yao Ming），1980年9月12日出生於上海市徐匯區，祖籍江蘇省蘇州市吳江區震澤鎮，前中國職業籃球運動員，司職中鋒，現任中職聯公司董事長兼總經理。
text = '《盜墓筆記》是2014年歡瑞世紀影視傳媒股份有限公司出品的一部網絡季播劇，改編自南派三叔所著的同名小說，由鄭保瑞和羅永昌聯合導演，李易峰、楊洋、唐嫣、劉天佐、張智堯、魏巍等主演。'
knowledge = jiagu.knowledge(text)
print(knowledge)




# 關鍵詞提取
text = '''
該研究主持者之一、波士頓大學地球與環境科學系博士陳池（音）表示，“盡管中國和印度國土面積僅占全球陸地的9%，但兩國為這一綠化過程貢獻超過三分之一。考慮到人口過多的國家一般存在對土地過度利用的問題，這個發現令人吃驚。”
NASA埃姆斯研究中心的科學家拉瑪·內曼尼（Rama Nemani）說，“這一長期數據能讓我們深入分析地表綠化背后的影響因素。我們一開始以為，植被增加是由於更多二氧化碳排放，導致氣候更加溫暖、潮濕，適宜生長。”
“MODIS的數據讓我們能在非常小的尺度上理解這一現象，我們發現人類活動也作出了貢獻。”
NASA文章介紹，在中國為全球綠化進程做出的貢獻中，有42%來源於植樹造林工程，對於減少土壤侵蝕、空氣污染與氣候變化發揮了作用。
據觀察者網過往報道，2017年我國全國共完成造林736.2萬公頃、森林撫育830.2萬公頃。其中，天然林資源保護工程完成造林26萬公頃，退耕還林工程完成造林91.2萬公頃。京津風沙源治理工程完成造林18.5萬公頃。三北及長江流域等重點防護林體系工程完成造林99.1萬公頃。完成國家儲備林建設任務68萬公頃。
'''

keywords = jiagu.keywords(text, 5) # 關鍵詞
print(keywords)


# 文本摘要
fin = open('input.txt', 'r')
text = fin.read()
fin.close()

summarize = jiagu.summarize(text, 3) # 摘要
print(summarize)



# 新詞發現

jiagu.findword('input.txt', 'output.txt') # 根據文本，利用信息熵做新詞發現。



# 情感分析
text = '很討厭還是個懶鬼'
sentiment = jiagu.sentiment(text)
print(sentiment)



# 文本聚類
docs = [
        "百度深度學習中文情感分析工具Senta試用及在線測試",
        "情感分析是自然語言處理里面一個熱門話題",
        "AI Challenger 2018 文本挖掘類競賽相關解決方案及代碼匯總",
        "深度學習實踐：從零開始做電影評論文本情感分析",
        "BERT相關論文、文章和代碼資源匯總",
        "將不同長度的句子用BERT預訓練模型編碼，映射到一個固定長度的向量上",
        "自然語言處理工具包spaCy介紹",
        "現在可以快速測試一下spaCy的相關功能，我們以英文數據為例，spaCy目前主要支持英文和德文"
    ]
cluster = jiagu.text_cluster(docs)
print(cluster)

'''
輸出的結果如下：

['廈門', '明天', '會不會', '下雨']
['ns', 'nt', 'v', 'v']
['B-LOC', 'O', 'O', 'O']
['結婚', '的', '和', '尚未', '結婚', '的']
['漢服', '和', '服裝', '、', '知識圖譜', '機器人']
['漢服', '和', '服裝', '、', '知識圖譜', '機器人']
['漢服', '和', '服裝', '、', '知識圖譜', '機器人']
[['盜墓筆記', '出品公司', '歡瑞世紀影視傳媒股份有限公司'], ['盜墓筆記', '作者', '南派三叔'], ['盜墓筆記', '導演', '鄭瑞'], ['盜墓筆記', '導演', '羅永昌'], ['盜墓筆記', '主演', '李易峰'], ['盜墓筆記', '主演', '楊洋'], ['盜墓筆記', '主演', '唐嫣'], ['盜墓筆記', '主演', '劉天佐'], ['盜墓筆記', '主演', '張智堯'], ['盜墓筆記', '主演', '魏巍']]
['.', '工程', '萬', '造林', '綠化']
['參考了各大工具優缺點制作，將Jiagu回饋給大家。', 'Jiagu以BiLSTM等模型為基礎，使用大規模語料訓練而成。', '']
('negative', 0.9957030885091285)
{0: ['將不同長度的句子用BERT預訓練模型編碼，映射到一個固定長度的向量上', '現在可以快速測試一下spaCy的相關功能，我們以英文數據為例，spaCy目前主要支持英文和德文', '百度深度學習中文情感分析工具Senta試用及在線測試', '深度學習實踐：從零開始做電影評論文本情感分析'], 1: ['情感分析是自然語言處理里面一個熱門話題', '自然語言處理工具包spaCy介紹'], 2: ['AI Challenger 2018 文本挖掘類競賽相關解決方案及代碼匯總', 'BERT相關論文、文章和代碼資源匯總']}


'''





'''
詞性標注說明
n　　　普通名詞
nt　 　時間名詞
nd　 　方位名詞
nl　 　處所名詞
nh　 　人名
nhf　　姓
nhs　　名
ns　 　地名
nn 　　族名
ni 　　機構名
nz 　　其他專名
v　　 動詞
vd　　趨向動詞
vl　　聯系動詞
vu　　能願動詞
a　 　形容詞
f　 　區別詞
m　 　數詞　　
q　 　量詞
d　 　副詞
r　 　代詞
p　　 介詞
c　 　連詞
u　　 助詞
e　 　嘆詞
o　 　擬聲詞
i　 　習用語
j　　 縮略語
h　　 前接成分
k　　 后接成分
g　 　語素字
x　 　非語素字
w　 　標點符號
ws　　非漢字字符串
wu　　其他未知的符號
命名實體說明（采用BIO標記方式）
B-PER、I-PER   人名
B-LOC、I-LOC   地名
B-ORG、I-ORG   機構名
'''

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【dataX】阿里開源ETL工具——dataX簡單上手 jiagu-工具使用隨思：關於中文分詞方法快速上手seajs——簡單易用Seajs Flutter Bloc狀態管理簡單上手 [轉] ELMo原理解析及簡單上手使用用飛天Web打印助手做了個web打印小票的代碼，感覺上手好簡單上手mongodb TypeScript 上手教程快速上手NumPy

思知 分詞工具 jiagu的簡單上手

免責聲明！

思知分詞工具 jiagu的簡單上手