python對讀取的文件內容進行分詞


  分詞,即將連續的字序列按照一定的規范重新組合成詞序列的過程,它是一種自然語言處理技術,這里的分詞指中文分詞,其本質是提取一個字符串中的詞組或者字。

其詳細代碼非常簡單,如下:

#導入jieba分詞模塊
import jieba
#記錄輸入的文件路徑
filepath = input('請輸入要讀取的文件:')
#打開文件
with open(filepath,encoding='utf-8') as f:
#讀取文件內容並分詞
words = jieba.lcut(f.read())
#替換換行符
print(words)

結果:

['1', '.', '', '代碼', '行數', '', '評估', '程序', '', '開發進度', '', '', '好比', '', '重量', '', '評估', '一個', '飛機', '', '建造', '進度', '\n', '2', '.', '程序', '不是', '年輕', '', '專利', '', '但是', '', '', '屬於', '年輕', '\n', '3', '.', '作為', '一個', '程序員', '', '郁悶', '', '事情', '', '', '面對', '一個', '代碼', '', '', '', '不敢', '', '修改', '', '', '糟糕', '', '', '', '這個', '代碼', '', '還是', '自己', '', '']


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM