1.什么是文本分類

在定義文本分類之前，需要理解文本數據的范圍，以及分類的真實含義。這里的文本數據可以是短語、句子或者包含文本段落的整篇文檔等任何形式，這些數據可以從語料庫、博客或互聯網的任何地方獲得。文本分類也經常成為文檔分類，文檔這個詞概括了任何形式的文本內容。文檔這個詞可以定義為思想或事件的一些具體的表示，這些標識可以是書面、語言記錄、會話或演講等形式。這里，使用文檔這個詞來表示文本數據，例如英語中的句子或段落。

文本分類也稱為文本歸類，這里使用文本分類這個詞有兩個原因。第一個原因是要分類文檔，文本分類和文本歸類具有相同的性質。第二個原因是將用分類或有監督機器學習方法來分類或歸類文檔。文本分類基友很多方法。將會集中精力解釋用於分類的有監督方法。分類過程不只局限於文本，還廣泛用於其他領域，包括科學、健康、天氣預測和技術等。

假設有一個預定義的類集合，文本或文檔分類是將文檔指定到一個或多個分類或類型的過程。這里的文檔就是文本文檔，每個文檔包含單詞組成的句子或段落。一個文本分類系統基於文檔的內置屬性，能夠成功的將每個文檔分類到正確的類別中。數學上，可以做如下定義：假設 d 是文檔 D 的描述或屬性，d € D，我們基友一組預先定義的類別或分類 C = {c₁,c₂,c₃,...,c_n}。真實的文檔 D 可能擁有很多內在的屬性，這使得 D 稱為高維空間的一個實體。使用這個空間的一個子集，其是包含一組優先的描述或特征的集合，表示為 d，可以使用文本分類系統 T 完成地將原始文檔 D划分到正確的類型 C_x。這可以表示為 T: D>C_x。

下圖是文本分類過程高層次的概念表示：

如圖所示，看到表示產品的幾個文檔分為食物、移動電話和電影幾個類別。最初，正如文本語料庫自身不同的文檔一樣，這些文檔放置在一起。通過一個文本分類系統之后，這里用通過黑色的方框表示，看到每個文件屬於預先定義的一個類或類別中。這里使用文檔的名稱來表示文檔，但是實際數據中，文檔可能包含豐富的信息使得文檔識別與分類更加容易，這些信息包括電影的分類、產品的說明與組成，以及很多可以作為分類系統特征的屬性。

文本分類具有很多划分方法，目前只介紹兩種基於文檔內容分類的分類：

基於內容的分類。
基於請求的分類。

這兩類的差異在於文本文檔分類方法背后的思想或理念，而不在於具體的技術算法與過程。基於內容的分類是根據文本內容主題或題目的屬性或權證來進行文檔分類的。舉一個概念性的例子，一本書有 30% 以上的內容是關於食物准備的，這本書可以歸為烹飪/食譜類。基於請求的分類世道用戶需求的影響，其目標是特定的用戶群和讀者。這類分類收到特殊策略和思想的控制。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python文本分類文本分類-TextCNN 文本分類文本分類--多分類【文本分類-08】BERT hanlp學習六：文本分類基於weka的文本分類實現基於fastText模型的文本分類【文本分類-中文】textRNN Python 基於 NLP 的文本分類