對於nlp的應用,我們應該先把停用詞以及出現頻率很低的詞匯給過濾掉
在英文里,比如'the','and','their'都可以作為停用詞來處理,但是,也要考慮自己的使用場景。例如,在中文中,“好”,“很好”這些詞匯在有些應用中可以作為停用詞過濾掉。但是如果是情感分析,這些詞不能被過濾,也不能當作停用詞處理掉哦親。
出現頻率特別低的詞匯對文本分析的作用不大,可以過濾掉。當停用詞和出現頻率低的詞匯都過濾掉后,得到了一個詞典庫。
對於詞的標准化,有兩種常用的技術,一種是stemming,另一種是lemmazation。
對於stemming操作,就是將部分屬於一個母詞的不同詞匯給統一成一個單詞,這個單詞不一定是英語中正常存在的單詞。例如,可以將went,go,going統一成go,也可以將fly,flies統一成fli,這里fli就不是實際存在的詞匯。對於stemming的實際使用,有一個著名的算法叫做PoterStemmer。其部分規則可以參見下圖。可以看到,如果要實現這么一個算法
光有程序員是不夠的,還需要語言學家來制定這種標准化的規則。
另一個lemmazation就不用過多了解了,它和stemming的區別就是,運用lemmazation標准化后的單詞是英語中實際存在的詞匯,而stemming標准化后的單詞則不一定哦。反正這些規則也不需要過多了解,只要知道他們是用於標准化的以及會使用就ok了