1. 讀郵件數據集文件,提取郵件本身與標簽。
列表
numpy數組
運行結果如下:
2.郵件預處理
- 郵件分句
- 名子分詞
- 去掉過短的單詞
- 詞性還原
- 連接成字符串
- 傳統方法來實現
- nltk庫的安裝與使用
pip install nltk
import nltk
nltk.download() # sever地址改成 http://www.nltk.org/nltk_data/
或
https://github.com/nltk/nltk_data下載gh-pages分支,里面的Packages就是我們要的資源。
將Packages文件夾改名為nltk_data。
或
網盤鏈接:https://pan.baidu.com/s/1iJGCrz4fW3uYpuquB5jbew 提取碼:o5ea
放在用戶目錄。
----------------------------------
安裝完成,通過下述命令可查看nltk版本:
import nltk print nltk.__doc__
2.1 nltk庫 分詞
nltk.sent_tokenize(text) #對文本按照句子進行分割
nltk.word_tokenize(sent) #對句子進行分詞
2.2 punkt 停用詞
from nltk.corpus import stopwords
stops=stopwords.words('english')
*如果提示需要下載punkt
nltk.download(‘punkt’)
或 下載punkt.zip
https://pan.baidu.com/s/1OwLB0O8fBWkdLx8VJ-9uNQ 密碼:mema
復制到對應的失敗的目錄C:\Users\Administrator\AppData\Roaming\nltk_data\tokenizers並解壓。
2.3 NLTK 詞性標注
nltk.pos_tag(tokens)
2.4 Lemmatisation(詞性還原)
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
lemmatizer.lemmatize('leaves') #缺省名詞
lemmatizer.lemmatize('best',pos='a')
lemmatizer.lemmatize('made',pos='v')
一般先要分詞、詞性標注,再按詞性做詞性還原。
2.5 編寫預處理函數
def preprocessing(text):
sms_data.append(preprocessing(line[1])) #對每封郵件做預處理
預處理代碼如下:
# -*- coding:utf-8 -*- # 開發人員:愛飛的大白鯊 # 開發時間:2020/5/1715:48 # 文件名稱:垃圾郵件分類2.py import nltk from nltk.corpus import stopwords from nltk.stem import WordNetLemmatizer import csv def preprocessing(text): tokens = []; for sent in nltk.sent_tokenize(text): #文本分割; for word in nltk.word_tokenize(sent): #單詞分類; tokens.append(word) #3.去除停用詞(如i\me\my等) stops=stopwords.words("english") tokens = [token for token in tokens if token not in stops] # 4.大小轉換,去掉少於三個字母單詞 tokens=[token.lower() for token in tokens if len(token) >=3] # NLTK詞性標注 nltk.pos_tag(tokens) #5.詞性還原 lemmatizer=WordNetLemmatizer() #定義還原對象 tokens=[lemmatizer.lemmatize(token,pos='n')for token in tokens] #名詞 tokens=[lemmatizer.lemmatize(token,pos='v')for token in tokens] #動詞 tokens=[lemmatizer.lemmatize(token,pos='a')for token in tokens] #形容詞 # 返回處理完成后的文本 return tokens; file=r'C:\Users\Administrator\PycharmProjects\機器學習\data\SMSSpamCollection.csv' sms=open(file,'r',encoding='utf-8') #讀取數據 sms_label=[] #存儲標題 sms_data=[] #存儲數據 csv_reader=csv.reader(sms,delimiter='\t') #預處理 for line in csv_reader: sms_label.append(line[0]) sms_data.append(preprocessing(line[1])) sms.close() #打印結果 print("標題:",sms_label) print("處理后的內容:") for i in sms_data: print(i)
運行結果如下:
3. 訓練集與測試集
4. 詞向量
5. 模型