NLP-零基礎入門NLP之新聞文本分類

本文轉載自查看原文 2020-07-21 21:16 967 nlp/ nlp-天池/ 天池

賽事理解

今天是打卡的第一天，任務是零基礎入門NLP之新聞文本分類，賽事的鏈接如下：

賽題以匿名處理后的新聞數據為賽題數據，數據集報名后可見並可下載。賽題數據為新聞文本，並按照字符級別進行匿名處理。整合划分出14個候選分類類別：財經、彩票、房產、股票、家居、教育、科技、社會、時尚、時政、體育、星座、游戲、娛樂的文本數據。

賽題數據由以下幾個部分構成：訓練集20w條樣本，測試集A包括5w條樣本，測試集B包括5w條樣本。為了預防選手人工標注測試集的情況，我們將比賽數據的文本按照字符級別進行了匿名處理。

在數據集中標簽的對應的關系如下：{'科技': 0, '股票': 1, '體育': 2, '娛樂': 3, '時政': 4, '社會': 5, '教育': 6, '財經': 7, '家居': 8, '游戲': 9, '房產': 10, '時尚': 11, '彩票': 12, '星座': 13}

賽事說明到這基本介紹結束，重點剖析各個部分的重要使用的方法和技術

F1分數（F1-score）是分類問題的一個衡量指標。一些多分類問題的機器學習競賽，常常將F1-score作為最終測評的方法。它是精確率和召回率的調和平均數，最大為1，最小為0。

首先定義以下幾個概念：
- TP（True Positive）：預測答案正確
- FP（False Positive）：錯將其他類預測為本類
- FN（False Negative）：本類標簽預測為其他類標
通過第一步的統計值計算每個類別下的precision和recall
- 精准度 / 查准率(precision)：指被分類器判定正例中的正樣本的比重
- 召回率 / 查全率 (recall)：指的是被預測為正例的占總的正例的比重
- 另外，介紹一下常用的准確率(accuracy)的概念，代表分類器對整個樣本判斷正確的比
通過第二步計算結果計算每個類別下的f1-score，計算方式如下
通過對第三步求得的各個類別下的F1-score求均值，得到最后的評測結果，計算方式如下

直接使用TF-IDF對文本提取特征，並使用分類器進行分類。在分類器的選擇上，可以使用SVM、LR、或者XGBoost。

　　可以看到，TF-IDF與一個詞在文檔中的出現次數成正比，與該詞在整個語言中的出現次數成反比。所以，自動提取關鍵詞的算法就是計算出文檔的每個詞的TF-IDF值，然后按降序排列，取排在最前面的幾個詞。

優點：

缺點：

FastText是入門款的詞向量，利用Facebook提供的FastText工具，可以快速構建出分類器。

fastText的架構和word2vec中的CBOW的架構類似，因為它們的作者都是Facebook的科學家Tomas Mikolov，而且確實fastText也算是word2vec所衍生出來的。

其中

相似處：
- 圖模型結構很像，都是采用embedding向量的形式，得到word的隱向量表達。
- 都采用很多相似的優化方法，比如使用Hierarchical softmax優化訓練和預測中的打分速度。
不同處：
- 模型的輸出層：word2vec的輸出層，對應的是每一個term，計算某term的概率最大；而fasttext的輸出層對應的是分類的label。不過不管輸出層對應的是什么內容，起對應的vector都不會被保留和使用。
- 模型的輸入層：word2vec的輸出層，是 context window 內的term；而fasttext 對應的整個sentence的內容，包括term，也包括 n-gram的內容。
兩者本質的不同，體現在 h-softmax的使用：
- Word2vec的目的是得到詞向量，該詞向量最終是在輸入層得到，輸出層對應的 h-softmax也會生成一系列的向量，但最終都被拋棄，不會使用。
- fastText則充分利用了h-softmax的分類功能，遍歷分類樹的所有葉節點，找到概率最大的label（一個或者N個）

WordVec是進階款的詞向量，並通過構建深度學習分類完成分類。深度學習分類的網絡結構可以選擇TextCNN、TextRNN或者BiLSTM。

詞向量（word embedding），可以很好地度量詞與詞之間的相似性。隨着深度學習（Deep Learning）在自然語言處理中應用的普及，很多人誤以為word2vec是一種深度學習算法。其實word2vec算法的背后是一個淺層神經網絡，分為兩種模型

深層學習的分類器主要處理文本的可以使用RNN,LSTM,BiLSTM(雙向LSTM),CNN(TEXTCNN)等

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 NLP文本分類 NLP-文本分類之詞向量-word2vec概念和公式理解 NLP(文本分類思路) Python 基於 NLP 的文本分類天池學習賽-NLP新聞文本分類（5/6）-Word2Vec+TextCNN模型 NLP學習（2）----文本分類模型 NLP文本分類方法匯總 NLP（七）信息抽取和文本分類基於Bert和通用句子編碼的Spark-NLP文本分類 NLP（十六）輕松上手文本分類