我想通過幾篇文章,給評分卡的全流程一個中等粒度的介紹。另外我的本職工作不是消費金融的數據分析,所以本系列的文章會偏技術一些。 數據分析工具主要有Python3及pandas、sklearn等科學計算包,另外也會有自己的工具包reportgen。 信用記錄數據采用Lending Club ...
時間:JSong 時間: . . 文章很長,理論和實現都講的很細,大家可以先收藏,有時間再看。 在上一篇文章中,我們對LendingClub的數據有了一個大致的了解,這次我將帶大家把 萬多條 個字段的原始數據一步一步處理成建模所需輸入的數據。 我們先按照上次一樣導入數據,這里我將逾期 天以上的都當作正類 評分卡簡介 在進行下一步操作之前,我們先來解構一下評分卡。 貸款機構 含銀行 信用卡 互聯網金 ...
2018-01-14 19:37 4 11810 推薦指數:
我想通過幾篇文章,給評分卡的全流程一個中等粒度的介紹。另外我的本職工作不是消費金融的數據分析,所以本系列的文章會偏技術一些。 數據分析工具主要有Python3及pandas、sklearn等科學計算包,另外也會有自己的工具包reportgen。 信用記錄數據采用Lending Club ...
作者:JSong 時間:2017.12 我想通過幾篇文章,給評分卡的全流程一個中等粒度的介紹。另外我的本職工作不是消費金融的數據分析,所以本系列的文章會偏技術一些。 數據分析工具主要有Python3及pandas、sklearn等科學計算包,另外也會有自己的工具包reportgen ...
有的時候,已有的特征可能並沒有有效的表征特征,尤其是針對特殊的業務的時候,極有可能需要對已有的特征進行變換,從而讓特征更加能夠表征特有的業務。這里介紹幾種常用的特征構造方法。 (1) 統計量構造 使用常用的統計量構造特征,常用的統計量有: 四分位數、中位數、平均值、標准差、偏差、偏度 ...
本文為根據風控課程總結 個人信貸產品的信用評分 商業銀行三大風險流動性風險、市場風險(利率、信用)和操作風險,其他(欺詐風險) 信用風險:在合約到期日不完全履約 信用風險重要參數:PD(違約概率)、LGD(違約條件下的損失率)、EAD(違約風險下的敞口暴露)、RWA(風險權重資產)、EL ...
評分卡常用模型與算法(應用了解模型,原理了解算法) 模型:邏輯回歸模型、決策樹模型、神經網絡模型、模型融合 算法:MLE、Gradient Descent、RF、GBDT、XGboost、LGBM、BP算法、Stacking、Blending 信用風險評分卡全流程 ...
數據對齊 Z分數標准化 將數據轉換成服從標准正太分布的數據 $$ \hat x = \frac{x-\mu}{\sigma} $$ 歸一化 將數據 ...
1.定義 分箱就是將連續變量離散化,將多狀態的離散變量合並成少狀態。 2.分箱的用處 離散特征的增加和減少都很容易,易於模型的快速迭代; 稀疏向量內積乘法運算速度快,計算結果方便存儲,容易擴展; 列表內容離散化后的特征對異常數據有很強的魯棒性:比如一個特征是年齡>30 ...
特征工程系列:GBDT特征構造以及聚類特征構造 本文為數據茶水間群友原創,經授權在本公眾號發表。 關於作者:JunLiang,一個熱愛挖掘的數據從業者,勤學好問、動手達人,期待與大家一起交流探討機器學習相關內容~ 0x00 前言 數據和特征決定了機器學習的上限,而模型和算法只是逼近這個上限 ...