Python文本數據分析與處理

本文轉載自查看原文 2018-08-29 17:37 8606 Machine Learning

獲取文本數據
- 格式: data0 = [['Hello', 'buddy'], ['You', 'silly']], labels = [1, 1]等
- 二維list, 一個list表示合並在一起可以表示一句話
過濾停用詞得到去掉停用詞的集合data
對data進行去重(現在使用的算法不需要單詞出現的數量, 如果換作其他算法則不一定), 獲取data中所有的單詞words, words的形式為list
- 實現思路:
  - data = set(data): 轉換為set達到去重的效果
  - data = list(data): 將data轉為list, 因為需要單詞的順序
data0的每一個list元素的單詞轉為0和1, 返回一組向量, 0表示沒有該單詞, 1表示有該單詞
def NBTrain函數使用貝葉斯進行訓練
- 根據labels先判斷出bad言論數, 得出其概率
- 縮小范圍, 鎖定到bad言論中, 計算出每一條bad言論的單詞總數與所有bad言論的總數的比值
- 鎖定到not bad言論中, 計算出每一條not bad言論的單詞總數與所有not bad言論的總數的比值
- 返回三個向量
根據根據貝葉斯公式, 根據輸入的測試集向量, 通過貝葉斯公式與NBTrain出來的參數(該參數與貝葉斯公式非常相關)得出p0與p1, 比較大小進行分類借口

獲得數據
過濾掉停用詞
將每一個樣本對應的單詞以' '.jion合並, 因為之后將單詞轉為向量的對象需要這樣的參數
導入sklearn.features_extraction.text.CountVectorizier或者sklearn.features_extraction.text.TfidfVectorizier, 是兩種將字符串中的單詞轉為向量的算法, 后者效果更好, 所以以他為例
- tfidf = TfidVectorizier() # 有一個ngram_range可選參數, (1, 4)表示得到的feature為1個, 2個依次增加到3個, 3就是最終每一個句子的向量的長度
- tfidf_fit = tfidf.fit_transform(texts) # texts的形式['I am myself', 'Do not say it', ...]
- tfidf_fit.get_feature_names()返回單詞list
- tfidf_fit.toarray()返回轉換后的向量
現在得到了我們需要用於建模的數據表了(前面就是特征提取的操作, 是機器學習中最難的部分, 目的就是為了得到可以用於建模的數據表)
將數據分成訓練集和測試集
導入native_bayes模塊中的MultinomialNB類對象
- clf = MultinomialNB()
- clf.fit(X_train.values.tolist(), y_train.values.tolist()) # bayes坑的地方, 傳入的必須是list, 內部不提供轉換
評估
- clf.score(X_test.values.tolist(), y_test.values.tolist())

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 十六、Python文本數據分析：新聞分類任務 Python數據分析之文本處理詞頻統計【轉】PostgreSQL 文本數據分析實踐之 - 相似度分析 python數據分析------文本挖掘（jieba）路透社文章的文本數據分析與可視化【Python 數據分析】jieba文本挖掘 python數據分析之清洗數據：缺失值處理用python進行數據分析（二：數據處理） Python大數據分析之數據處理 Python實驗五：Pandas數據分析及數據預處理