1.什么是文本分類
在定義文本分類之前,需要理解文本數據的范圍,以及分類的真實含義。這里的文本數據可以是短語、句子或者包含文本段落的整篇文檔等任何形式,這些數據可以從語料庫、博客或互聯網的任何地方獲得。文本分類也經常成為文檔分類,文檔這個詞概括了任何形式的文本內容。文檔這個詞可以定義為思想或事件的一些具體的表示,這些標識可以是書面、語言記錄、會話或演講等形式。這里,使用文檔這個詞來表示文本數據,例如英語中的句子或段落。
文本分類也稱為文本歸類,這里使用文本分類這個詞有兩個原因。第一個原因是要分類文檔,文本分類和文本歸類具有相同的性質。第二個原因是將用分類或有監督機器學習方法來分類或歸類文檔。文本分類基友很多方法。將會集中精力解釋用於分類的有監督方法。分類過程不只局限於文本,還廣泛用於其他領域,包括科學、健康、天氣預測和技術等。
假設有一個預定義的類集合,文本或文檔分類是將文檔指定到一個或多個分類或類型的過程。這里的文檔就是文本文檔,每個文檔包含單詞組成的句子或段落。一個文本分類系統基於文檔的內置屬性,能夠成功的將每個文檔分類到正確的類別中。數學上,可以做如下定義:假設 d 是文檔 D 的描述或屬性,d € D,我們基友一組預先定義的類別或分類 C = {c1,c2,c3,...,cn}。真實的文檔 D 可能擁有很多內在的屬性,這使得 D 稱為高維空間的一個實體。使用這個空間的一個子集,其是包含一組優先的描述或特征的集合,表示為 d,可以使用文本分類系統 T 完成地將原始文檔 D划分到正確的類型 Cx。這可以表示為 T: D>Cx。
下圖是文本分類過程高層次的概念表示:
如圖所示,看到表示產品的幾個文檔分為食物、移動電話和電影幾個類別。最初,正如文本語料庫自身不同的文檔一樣,這些文檔放置在一起。通過一個文本分類系統之后,這里用通過黑色的方框表示,看到每個文件屬於預先定義的一個類或類別中。這里使用文檔的名稱來表示文檔,但是實際數據中,文檔可能包含豐富的信息使得文檔識別與分類更加容易,這些信息包括電影的分類、產品的說明與組成,以及很多可以作為分類系統特征的屬性。
文本分類具有很多划分方法,目前只介紹兩種基於文檔內容分類的分類:
- 基於內容的分類。
- 基於請求的分類。
這兩類的差異在於文本文檔分類方法背后的思想或理念,而不在於具體的技術算法與過程。基於內容的分類 是根據文本內容主題或題目的屬性或權證來進行文檔分類的。舉一個概念性的例子,一本書有 30% 以上的內容是關於食物准備的,這本書可以歸為烹飪/食譜類。基於請求的分類世道用戶需求的影響,其目標是特定的用戶群和讀者。這類分類收到特殊策略和思想的控制。

