原文:評分卡系列(二):特征工程

時間:JSong 時間: . . 文章很長,理論和實現都講的很細,大家可以先收藏,有時間再看。 在上一篇文章中,我們對LendingClub的數據有了一個大致的了解,這次我將帶大家把 萬多條 個字段的原始數據一步一步處理成建模所需輸入的數據。 我們先按照上次一樣導入數據,這里我將逾期 天以上的都當作正類 評分卡簡介 在進行下一步操作之前,我們先來解構一下評分卡。 貸款機構 含銀行 信用卡 互聯網金 ...

2018-01-14 19:37 4 11810 推薦指數:

查看詳情

評分系列(一):講講評分系統的構建

我想通過幾篇文章,給評分的全流程一個中等粒度的介紹。另外我的本職工作不是消費金融的數據分析,所以本系列的文章會偏技術一些。 數據分析工具主要有Python3及pandas、sklearn等科學計算包,另外也會有自己的工具包reportgen。 信用記錄數據采用Lending Club ...

Tue Mar 26 00:31:00 CST 2019 0 608
評分系列(一):講講評分系統的構建

作者:JSong 時間:2017.12 我想通過幾篇文章,給評分的全流程一個中等粒度的介紹。另外我的本職工作不是消費金融的數據分析,所以本系列的文章會偏技術一些。 數據分析工具主要有Python3及pandas、sklearn等科學計算包,另外也會有自己的工具包reportgen ...

Mon Jan 15 03:24:00 CST 2018 1 10361
特征工程系列:(五)特征構造

有的時候,已有的特征可能並沒有有效的表征特征,尤其是針對特殊的業務的時候,極有可能需要對已有的特征進行變換,從而讓特征更加能夠表征特有的業務。這里介紹幾種常用的特征構造方法。 (1) 統計量構造 使用常用的統計量構造特征,常用的統計量有: 四分位數、中位數、平均值、標准差、偏差、偏度 ...

Wed Aug 04 00:23:00 CST 2021 0 115
評分

本文為根據風控課程總結 個人信貸產品的信用評分 商業銀行三大風險流動性風險、市場風險(利率、信用)和操作風險,其他(欺詐風險) 信用風險:在合約到期日不完全履約 信用風險重要參數:PD(違約概率)、LGD(違約條件下的損失率)、EAD(違約風險下的敞口暴露)、RWA(風險權重資產)、EL ...

Sun Jun 09 23:20:00 CST 2019 0 1881
評分

評分常用模型與算法(應用了解模型,原理了解算法)   模型:邏輯回歸模型、決策樹模型、神經網絡模型、模型融合   算法:MLE、Gradient Descent、RF、GBDT、XGboost、LGBM、BP算法、Stacking、Blending 信用風險評分全流程 ...

Wed Jul 03 05:51:00 CST 2019 0 569
特征工程系列:(三)特征對齊與表征

數據對齊 Z分數標准化     將數據轉換成服從標准正太分布的數據     $$     \hat x = \frac{x-\mu}{\sigma}     $$ 歸一化     將數據 ...

Mon Jul 19 21:44:00 CST 2021 0 271
特征工程之分箱--方分箱

1.定義 分箱就是將連續變量離散化,將多狀態的離散變量合並成少狀態。 2.分箱的用處 離散特征的增加和減少都很容易,易於模型的快速迭代; 稀疏向量內積乘法運算速度快,計算結果方便存儲,容易擴展; 列表內容離散化后的特征對異常數據有很強的魯棒性:比如一個特征是年齡>30 ...

Mon Mar 18 00:24:00 CST 2019 1 4476
特征工程系列:GBDT特征構造以及聚類特征構造

特征工程系列:GBDT特征構造以及聚類特征構造 本文為數據茶水間群友原創,經授權在本公眾號發表。 關於作者:JunLiang,一個熱愛挖掘的數據從業者,勤學好問、動手達人,期待與大家一起交流探討機器學習相關內容~ 0x00 前言 數據和特征決定了機器學習的上限,而模型和算法只是逼近這個上限 ...

Thu Nov 07 22:51:00 CST 2019 0 811
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM