思知 分詞工具 jiagu的簡單上手


# 快速上手:分詞、詞性標注、命名實體識別
import jiagu

# jiagu.init() # 可手動初始化,也可以動態初始化

text = '廈門明天會不會下雨'

words = jiagu.seg(text) # 分詞
print(words)

pos = jiagu.pos(words) # 詞性標注
print(pos)

ner = jiagu.ner(words) # 命名實體識別
print(ner)


# 中文分詞
# 自定義分詞模型(將單獨提供msr、pku、cnc等分詞標准)


# 獨立標准模型路徑
# msr:test/extra_data/model/msr.model
# pku:test/extra_data/model/pku.model
# cnc:test/extra_data/model/cnc.model

jiagu.load_model('test/extra_data/model/cnc.model') # 使用國家語委分詞標准

words = jiagu.cut('結婚的和尚未結婚的')

print(words)

# 分詞各種模式使用方式


text = '漢服和服裝、知識圖譜機器人'

words = jiagu.cut(text) # 深度學習分詞
print(words)

words = jiagu.seg(text) # 字典分詞
print(words)

# jiagu.load_userdict('dict/user.dict') # 加載自定義字典,支持字典路徑、字典列表形式。
jiagu.load_userdict(['知識圖譜'])

words = jiagu.seg(text) # 自定義分詞,字典分詞模式有效
print(words)



# 知識圖譜關系抽取

# 吻別是由張學友演唱的一首歌曲。
# 蘇州大學(Soochow University),簡稱“蘇大”,坐落於歷史文化名城蘇州。
# 《盜墓筆記》是2014年歡瑞世紀影視傳媒股份有限公司出品的一部網絡季播劇,改編自南派三叔所著的同名小說,由鄭保瑞和羅永昌聯合導演,李易峰、楊洋、唐嫣、劉天佐、張智堯、魏巍等主演。
# 姚明(Yao Ming),1980年9月12日出生於上海市徐匯區,祖籍江蘇省蘇州市吳江區震澤鎮,前中國職業籃球運動員,司職中鋒,現任中職聯公司董事長兼總經理。
text = '《盜墓筆記》是2014年歡瑞世紀影視傳媒股份有限公司出品的一部網絡季播劇,改編自南派三叔所著的同名小說,由鄭保瑞和羅永昌聯合導演,李易峰、楊洋、唐嫣、劉天佐、張智堯、魏巍等主演。'
knowledge = jiagu.knowledge(text)
print(knowledge)




# 關鍵詞提取
text = '''
該研究主持者之一、波士頓大學地球與環境科學系博士陳池(音)表示,“盡管中國和印度國土面積僅占全球陸地的9%,但兩國為這一綠化過程貢獻超過三分之一。考慮到人口過多的國家一般存在對土地過度利用的問題,這個發現令人吃驚。”
NASA埃姆斯研究中心的科學家拉瑪·內曼尼(Rama Nemani)說,“這一長期數據能讓我們深入分析地表綠化背后的影響因素。我們一開始以為,植被增加是由於更多二氧化碳排放,導致氣候更加溫暖、潮濕,適宜生長。”
“MODIS的數據讓我們能在非常小的尺度上理解這一現象,我們發現人類活動也作出了貢獻。”
NASA文章介紹,在中國為全球綠化進程做出的貢獻中,有42%來源於植樹造林工程,對於減少土壤侵蝕、空氣污染與氣候變化發揮了作用。
據觀察者網過往報道,2017年我國全國共完成造林736.2萬公頃、森林撫育830.2萬公頃。其中,天然林資源保護工程完成造林26萬公頃,退耕還林工程完成造林91.2萬公頃。京津風沙源治理工程完成造林18.5萬公頃。三北及長江流域等重點防護林體系工程完成造林99.1萬公頃。完成國家儲備林建設任務68萬公頃。
'''

keywords = jiagu.keywords(text, 5) # 關鍵詞
print(keywords)


# 文本摘要
fin = open('input.txt', 'r')
text = fin.read()
fin.close()

summarize = jiagu.summarize(text, 3) # 摘要
print(summarize)



# 新詞發現

jiagu.findword('input.txt', 'output.txt') # 根據文本,利用信息熵做新詞發現。



# 情感分析
text = '很討厭還是個懶鬼'
sentiment = jiagu.sentiment(text)
print(sentiment)



# 文本聚類
docs = [
"百度深度學習中文情感分析工具Senta試用及在線測試",
"情感分析是自然語言處理里面一個熱門話題",
"AI Challenger 2018 文本挖掘類競賽相關解決方案及代碼匯總",
"深度學習實踐:從零開始做電影評論文本情感分析",
"BERT相關論文、文章和代碼資源匯總",
"將不同長度的句子用BERT預訓練模型編碼,映射到一個固定長度的向量上",
"自然語言處理工具包spaCy介紹",
"現在可以快速測試一下spaCy的相關功能,我們以英文數據為例,spaCy目前主要支持英文和德文"
]
cluster = jiagu.text_cluster(docs)
print(cluster)

'''
輸出的結果如下:

['廈門', '明天', '會不會', '下雨']
['ns', 'nt', 'v', 'v']
['B-LOC', 'O', 'O', 'O']
['結婚', '的', '和', '尚未', '結婚', '的']
['漢服', '和', '服裝', '、', '知識圖譜', '機器人']
['漢服', '和', '服裝', '、', '知識圖譜', '機器人']
['漢服', '和', '服裝', '、', '知識圖譜', '機器人']
[['盜墓筆記', '出品公司', '歡瑞世紀影視傳媒股份有限公司'], ['盜墓筆記', '作者', '南派三叔'], ['盜墓筆記', '導演', '鄭瑞'], ['盜墓筆記', '導演', '羅永昌'], ['盜墓筆記', '主演', '李易峰'], ['盜墓筆記', '主演', '楊洋'], ['盜墓筆記', '主演', '唐嫣'], ['盜墓筆記', '主演', '劉天佐'], ['盜墓筆記', '主演', '張智堯'], ['盜墓筆記', '主演', '魏巍']]
['.', '工程', '萬', '造林', '綠化']
['參考了各大工具優缺點制作,將Jiagu回饋給大家。', 'Jiagu以BiLSTM等模型為基礎,使用大規模語料訓練而成。', '']
('negative', 0.9957030885091285)
{0: ['將不同長度的句子用BERT預訓練模型編碼,映射到一個固定長度的向量上', '現在可以快速測試一下spaCy的相關功能,我們以英文數據為例,spaCy目前主要支持英文和德文', '百度深度學習中文情感分析工具Senta試用及在線測試', '深度學習實踐:從零開始做電影評論文本情感分析'], 1: ['情感分析是自然語言處理里面一個熱門話題', '自然語言處理工具包spaCy介紹'], 2: ['AI Challenger 2018 文本挖掘類競賽相關解決方案及代碼匯總', 'BERT相關論文、文章和代碼資源匯總']}


'''





'''
詞性標注說明
n   普通名詞
nt   時間名詞
nd   方位名詞
nl   處所名詞
nh   人名
nhf  姓
nhs  名
ns   地名
nn   族名
ni   機構名
nz   其他專名
v   動詞
vd  趨向動詞
vl  聯系動詞
vu  能願動詞
a   形容詞
f   區別詞
m   數詞  
q   量詞
d   副詞
r   代詞
p   介詞
c   連詞
u   助詞
e   嘆詞
o   擬聲詞
i   習用語
j   縮略語
h   前接成分
k   后接成分
g   語素字
x   非語素字
w   標點符號
ws  非漢字字符串
wu  其他未知的符號
命名實體說明(采用BIO標記方式)
B-PER、I-PER 人名
B-LOC、I-LOC 地名
B-ORG、I-ORG 機構名
'''


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM