分詞,即將連續的字序列按照一定的規范重新組合成詞序列的過程,它是一種自然語言處理技術,這里的分詞指中文分詞,其本質是提取一個字符串中的詞組或者字。
其詳細代碼非常簡單,如下:
#導入jieba分詞模塊
import jieba
#記錄輸入的文件路徑
filepath = input('請輸入要讀取的文件:')
#打開文件
with open(filepath,encoding='utf-8') as f:
#讀取文件內容並分詞
words = jieba.lcut(f.read())
#替換換行符
print(words)
結果:
['1', '.', '用', '代碼', '行數', '來', '評估', '程序', '的', '開發進度', ',', '就', '好比', '拿', '重量', '來', '評估', '一個', '飛機', '的', '建造', '進度', '\n', '2', '.', '程序', '不是', '年輕', '的', '專利', ',', '但是', ',', '它', '屬於', '年輕', '\n', '3', '.', '作為', '一個', '程序員', ',', '郁悶', '的', '事情', '是', ',', '面對', '一個', '代碼', '塊', ',', '缺', '不敢', '去', '修改', '。', '更', '糟糕', '的', '是', ',', '這個', '代碼', '塊', '還是', '自己', '寫', '的']