機器學習:從源數據清洗到特征工程建立談金融反欺詐模型訓練
【數據來源】
本文的數據來源於Lending Club網站的公開數據,數據集為自LendingClub平台發放的2016年Q3的總計99122條貸款記錄。
Lending Club是美國最大的P2P網貸交易平台,利用網絡技術直接連接了個人投資者和個人借貸者,縮短資金流通的細節,繞過傳統的大銀行等金融機構,使得投資者和借貸者都能得到更多實惠。對於投資者來說,可以獲得更好的回報;對於借貸者來說,則可以獲得相對較低的貸款利率。
在借貸行業中,投資者向借貸者提供貸款以獲取利息。如果借貸者順利償還貸款,投資者則獲得利息收益。如果借貸者無法償還貸款,投資者則損失貸款本金。因此,對於投資者來說,需要預測借貸者無法償還貸款的風險,最大程度地避免投資損失,最大程度地實現投資回報。
【實施步驟】
一、 總體流程說明
數據分析的開始是從了解你要分析的數據以及了解你本次機器學習的目標開始的。需要分清是分類問題,還是回歸問題,同時需要了解數據的構造,哪些是自變量(特征),哪個是因變量(目標變量)。就本次目標來看,因為目標變量是loan_statas(還款狀態),它是一個標稱值,因此本次是一個分類問題。
進入數據清洗階段,主要是去除一些缺失嚴重的樣式或者特征,同時去除一些跟業務無關的特征,以及方差比較小的特征。建立特征工程時,主要是對里面字符特征進行處理,將其轉成數值型,以及對一些數據值特征進行歸一化等處理;模型訓練時,主要是選擇合適的算法以及選擇合適的超參數;模型評估就是將在訓練集上運行好的模型,在測試集上進行驗證評估。
二、了解數據集
使用pandas讀取數據集,然后查看數據信息


可以看出一共包含了99122條記錄,一共有121個特征和一個目標變量,這些列的類型分布:float64有97個,字符型有25個。
三、 數據清洗
▲取出特征X以及目標變量y

其中load_data是自己封裝的一個函數,用於根據targetCol來分割原來的df。
▲根據業務去掉不需要的列
目前主要包含:無關的標識字段以及貸后字段

▲調用自定義函數進行清理

主要包含的以下操作:
▪ 去除所有行以及所有的列均為nan的數據
▪ 去除缺失率高的特征,這里超過0.9則不考慮
▪ 去除特征中包含實例類別太多的特征,默認包含1000個實例則不考慮
▪ 對於數值型,如果標准差太小的,則不考慮該特征
可以從打印出的日志上看出,經過上一步的清洗步驟,已經從原來的121個特征變量,降成75個特征變量。
再看一下清洗完后,目前的特征中樣本缺失度情況:

由圖可以目前缺失最高的mths_since_last_record在80%左右,在預設范圍內,整體情況還相對理想。
▲查看特征的相關程度
如果特征之間相關度比較高的話,那就會影響分析結果,這里對這些特征的相關度進行排序:

從上述的相關系數的關聯情況可以看出:funded_amnt,loan_amnt,funded_amnt_inv這幾個特征的關聯比較強,僅保留funded_amnt,去除其它兩個特征,經過清洗后只剩下了73個特征。
四、特征工程
▲對目標變量的處理
查看目標變量y的值的分布情況

根據業務來理解,Current和Fully Paid用戶是屬於信用良好的樣本,用1表示,Late (31-120 days)和Late (16-30 days)逾期的用戶就歸於信用不好的樣本,用0表示,其它的幾類就暫時用np.nan來代替,本次暫時不分析,先刪除這些空的3912個樣本。
處理完后,目標變量的分布如下:

▲對字符型特征的處理
查看當前特征中字符型的特征主要包含:

通過數據的分布可以看出特征pymnt_plan,application_type分布很不均衡,暫時不考慮這兩個特征。
同時將init_rate轉成float類型,將emp_length處理成int類型,對剩下的三個home_ownership,verification_status,initial_list_status類型變量做獨熱編碼,使用pd.get_dummies函數,同時去除原始的那三個字段。
經過如上的處理,將其全部字符型的特征轉成了數值型。
▲對整體數值型特征的處理
這里主要對缺失值處理,使用每個特征的中位數進行缺失值填充。

到此已全部完成了特征工程的建立,最終特征工程包含95210個樣本以及 77特征,建好的特征工程進入下一階段的模型訓練。
五、 模型訓練
因為考慮到樣本的不均衡性,交叉驗證的方法使用StratifiedShuffleSplit方式來划分樣本,同時學習器使用GBRT算法,同時RandomizedSearchCV進行最優參數選擇。目前只是設置了基本的參數:

通過訓練集的充分訓練后,得到目前GBRT最優的參數如下:

然后使用這個最優的模型來對測試集進行預測:

這樣我們就得到了測試集在這個模型中跑出來的結果y_predicted數組,然后將它與y_test進行比對就可以對該模型進行評估,具體的可以查看2.6小結的結果。
六、模型評估
▲查看分類報告

可以看出整體平均的精確度和召回率和F1值還是可以的,不過對於樣本0的召回率和F1值為0,可能需要進一步優化。
▲查看學習曲線

學習曲線是一條關於樣本個數和經驗損失函數之間的曲線,通過學習曲線可以看到關於偏差、方差用於改善機器學習算法的決策提供依據;從目前的曲線可以看出,訓練得分和測試得分基本穩定在0.972這個點,相對來說比較理想。
【結論與展望】
本文只是簡單的演示了一個完整的機器學習的流程,重點在於突出機器學習的各個實施步驟,對於整體的模型可能還有以下幾點可以優化與完善:
▪ 如何更好的處理樣本的不平衡性
▪ 是否考慮其它的算法進行比對效果,比如xgboost
▪ 算法的超參數調優可以增加幾個變量調優
▪ 特征工程的建立還是稍微粗糙了些,還是可以再細化(比如特征的組合,特征的重要性排序,數值型特征的歸一化處理等)