一般在machine learning意義上,我們常說的feature,是一種對數據的表達。當然,要衡量一種feature是否是合適的表達,要根據數據,應用,ML的模型,方法....很多方面來看。
一般來說,Feature應該是informative(富有信息量),discriminative(有區分性)和independent(獨立)的。
那么具體怎么選擇feature,其實一直是一個開放的問題。
在機器學習里面,feature的選擇是至關重要的:對於同一種學習的模型,同樣的學習方法,同樣的數據,選擇不同的feature來表達,可能會產生完全不同的效果。
Feature有很多種特性和分類:Feature可以是Linear(線性),也可以是Non-linear(非線性)的;Feature可以是Fixed(固頂的),也可以是Adaptive(適應性的)....甚至feature都可以不是numerical的,但因為題主問的是sparse feature,所以我就在這里特指numerical的feature。
如果把我們的每一個數據點,想象成一個vector(向量),記作y,對應的feature則可以用另外一個vector來表示,記作x。
而稀疏特性的feature(sparse feature),就是x這個向量里面有很多index都是0....而非零的index遠小於x的維度(x向量的長度)。
實際上,稀疏特征和特征的區別就是零比較多。
參考資料:https://www.zhihu.com/question/31951092/answer/54137923
下面放一個京東白條部門的大佬寫的關於特征工程的文章。
特征工程到底是什么? - 京東白條的回答 - 知乎 https://www.zhihu.com/question/29316149/answer/417545247
