python對讀取的文件內容進行分詞

本文轉載自查看原文 2020-05-08 23:11 2437 python

　　分詞，即將連續的字序列按照一定的規范重新組合成詞序列的過程，它是一種自然語言處理技術，這里的分詞指中文分詞，其本質是提取一個字符串中的詞組或者字。

其詳細代碼非常簡單，如下：

#導入jieba分詞模塊
import jieba
#記錄輸入的文件路徑
filepath = input('請輸入要讀取的文件：')
#打開文件
with open(filepath,encoding='utf-8') as f:
    #讀取文件內容並分詞
    words = jieba.lcut(f.read())
    #替換換行符
    print(words)

結果：

['1', '.', '用', '代碼', '行數', '來', '評估', '程序', '的', '開發進度', '，', '就', '好比', '拿', '重量', '來', '評估', '一個', '飛機', '的', '建造', '進度', '\n', '2', '.', '程序', '不是', '年輕', '的', '專利', '，', '但是', '，', '它', '屬於', '年輕', '\n', '3', '.', '作為', '一個', '程序員', '，', '郁悶', '的', '事情', '是', '，', '面對', '一個', '代碼', '塊', '，', '缺', '不敢', '去', '修改', '。', '更', '糟糕', '的', '是', '，', '這個', '代碼', '塊', '還是', '自己', '寫', '的']

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 java 對文件內容進行分詞統計 spark讀取mongodb 並使用fastjson對讀取json進行處理 Python將文本內容讀取分詞並繪制詞雲圖 Python逐行讀取文件內容 Python逐行讀取文件內容 Python讀取XML文件內容 Python讀取文件內容與存儲 python ini文件內容的讀取 python讀取PDF文件內容 python讀取本地文件內容