創造新的特征是一件十分困難的事情,需要豐富的專業知識和大量的時間。機器學習應用的本質基本上就是特征工程。
——Andrew Ng
業內常說數據決定了模型效果上限,而機器學習算法是通過數據特征做出預測的,好的特征可以顯著地提升模型效果。這意味着通過特征生成(即從數據設計加工出模型可用特征),是特征工程相當關鍵的一步。 本文從特征生成作用、特征生成的方法(人工設計、自動化特征生成)展開闡述並附上代碼。
1 特征生成的作用
特征生成是特征提取中的重要一步,作用在於:
- 增加特征的表達能力,提升模型效果;(如體重除以身高就是表達健康情況的重要特征,而單純看身高或體重對健康情況表達就有限。)
- 可以融入業務上的理解設計特征,增加模型的可解釋性;
很多人學習python,不知道從何學起。
很多人學習python,掌握了基本語法過后,不知道在哪里尋找案例上手。
很多已經做案例的人,卻不知道如何去學習更加高深的知識。
那么針對這三類人,我給大家提供一個好的學習平台,免費領取視頻教程,電子書籍,以及課程的源代碼!
QQ群:609616831
2 數據情況分析
本文示例的數據集是客戶的資金變動情況,如下數據字典:
3 特征生成的方法
特征生成方法可以分為兩類:聚合方式、轉換方式。
3.1 聚合方式
聚合方式是指對存在一對多的字段,將其對應多條記錄分組聚合后統計平均值、計數、最大值等數據特征。 如以上述數據集,同一cust_no對應多條記錄,通過對cust_no(客戶編號)做分組聚合,統計C1字段個數、唯一數、平均值、中位數、標准差、總和、最大、最小值,最終得到按每個cust_no統計的C1平均值、最大值等特征。
3.2 轉換方式
轉換方式是指對字段間做加減乘除等運算生成數據特征的過程,對不同字段類型有不同轉換方式。
3.2.1 數值類型
- 加減乘除
多個字段做運算生成新的特征,這通常需要結合業務層面的理解以及數據分布的情況,以生成較優的特征集。
- 多個列統計
直接用聚合函數統計多列的方差、均值等
- 排名編碼特征
按特征值對全體樣本進行排序,以排序序號作為特征值。這種特征對異常點不敏感,也不容易導致特征值沖突。
3.2.2 字符類型
- 截取
當字符類型的值過多,通常可對字符類型變量做截取,以減少模型過擬合。如具體的家庭住址,可以截取字符串到城市級的粒度。
- 字符長度
統計字符串長度。如轉賬場景中,轉賬留言的字數某些程度可以刻畫這筆轉賬的類型。
- 頻次
通過統計字符出現頻次。如欺詐場景中地址出現次數越多,越有可能是團伙欺詐。
3.2.3 日期類型
常用的有計算日期間隔、周幾、幾點等等。
4 自動化特征生成
傳統的特征工程方法通過人工構建特征,這是一個繁瑣、耗時且容易出錯的過程。自動化特征工程是通過Fearturetools等工具,從一組相關數據表中自動生成有用的特征的過程。對比人工生成特征會更為高效,可重復性更高,能夠更快地構建模型。
4.1 FeatureTools上手
Featuretools是一個用於執行自動化特征工程的開源庫,它有基本的3個概念: 1)Feature Primitives(特征基元):生成特征的常用方法,分為聚合(agg_primitives)、轉換(trans_primitives)的方式。可通過如下代碼列出featuretools的特征加工方法及簡介。
2)Entity(實體) 可以被看作類似Pandas DataFrame, 多個實體的集合稱為Entityset。實體間可以根據關聯鍵添加關聯關系Relationship。
3)dfs(深度特征合成) : 是從多個數據集創建新特征的過程,可以通過設置搜索的最大深度(max_depth)來控制所特征生成的復雜性
4.2 FeatureTools問題點
4.2.1 內存溢出問題 Fearturetools是通過工程層面暴力生成所有特征的過程,當數據量大的時候,容易造成內存溢出。解決這個問題除了升級服務器內存,減少njobs,還有一個常用的是通過只選擇重要的特征進行暴力衍生特征。
4.2.2 特征維度爆炸 當原始特征數量多,或max_depth、特征基元的種類設定較大,Fearturetools生成的特征數量巨大,容易維度爆炸。這是就需要考慮到特征選擇、特征降維
在這里還是要推薦下我自己建的Python學習群:609616831,群里都是學Python的,如果你想學或者正在學習Python ,歡迎你加入,大家都是軟件開發黨,不定期分享干貨(只有Python軟件開發相關的),包括我自己整理的一份2020最新的Python進階資料和零基礎教學,歡迎進階中和對Python感興趣的小伙伴加入!