python信用評分卡建模視頻系列教程(附代碼) 博主錄制
信用風險計量技術簡述
https://blog.csdn.net/zhuzhubiji/article/details/16841819 轉載
1.古典信用風險計量模型
主觀判斷分析方法、財務比率評分方法、多變量信用風險判別方法(其中最有效,包括線性概率模型、Logit模型、Porbit模型、判別分析模型)
評級方法:將信用狀況分成不同等級,分別使用不同的信用政策。
評分方法:對影響信用的不同因素確定不同的分值和權重,匯總計算出對應的信用評分。作為給予企業信用額度或貸款額度的依據。Z評分模型、ZETA評分模型。
專家方法:專家打分,對決定信用狀況的主要因素進行評分。5C法。
2.現代信用風險度量模型
莫頓Merton將期權定價理論運用到違約證券定價的研究,推出了違約債券的定價公式。
違約證券估價理論模型都是基於BSM(Black ScholesMerton)的股票期權定價模型,稱為結構化模型。
簡約模型:不用公司資產價值數據,而用市場中易於得到的公司違約率、公司信用等級變動以及債券信用利差等市場數據。馬爾可夫模型、可爾可夫模型、雙因素模型
信用風險模型大致分三類:
1.信用轉移方法:如J.P. Morgan提出的CreditMetrics模型,研究給定時間水平上信用質量變化的規律。
2.期權定價方法:又稱結構化方法,本質是勇氣也未來價值的內生的不確定性解釋企業債務的違約風險。如KMV公司的KMV模型。
3.保險精算方法:如瑞士信貸銀行金融產品部CSFP的Credit Risk+模型;麥肯錫公司Mckinsey的CreditPortfolio View模型。
信用風險計量模型匯總
信用風險計量模型的基本技術路線是,利用借款者的特征指標和宏觀經濟變量,收集這些特征指標和宏觀變量的歷史數據,並將其應用於預測違約借款人與履約借款人。預測模型旨在評估未知借款者將來是否還款的信用價值,將潛在借款者的特征值輸入模型,從模型中輸出信用價值評估,從而可對潛在借款人進行信用評估。
一般的評級方法可以分為專家經驗判斷法、參數模型和非參數模型。所謂的專家經驗判斷,就是相關專家根據主觀經驗進行打分,后兩種方法都是根據模型進行客觀的計算。而對於參數模型與非參數模型的區分:用代數方程、微分方程、微分方程組以及傳遞函數等描述的模型都是參數模型。建立參數模型就在於確定已知模型結構中的各個參數,通過理論分析總是得出參數模型;非參數模型是直接或間接地從實際系統的實驗分析中得到的響應,例如通過實驗記錄到的系統脈沖響應或階躍響應就是非參數模型。
下面的例子給大家通俗易懂的解釋一下。
例子:項目組小翟最近喜歡上了一個姑娘,但是非常苦惱姑娘是不是喜歡自己。小翟來咨詢他的人生導師-小張姐姐,小張姐姐根據自己的經驗判斷姑娘不會喜歡他,小翟非常傷心,這就是專家經驗判斷法。
之后,小翟又來咨詢數據分析高手-小金哥哥,小金哥哥通過分析小翟和姑娘的生辰八字,列出了回歸方程,判斷姑娘會有37.28%概率喜歡上小翟,小翟非常傷心,這就是參數模型。
最后,小翟又來咨詢數學專業高材生-小沈姐姐,小沈姐姐收集了幾十對在一起的情侶又收集了幾十對沒有在一起的情侶,通過決策樹的算法,判斷小翟和姑娘的數據更偏向於沒有在一起的情侶,小翟非常傷心,這就是非參數模型。
專家判斷法
專家經驗判斷
專家經驗判斷是根據信貸專家多年從業經驗進行定性判斷。
- 層次分析法
層次分析法(簡稱AHP)是美國運籌學家Saaty教授於20世紀70年代初提出的,其特點是把復雜問題中的各種因素通過划分為相互聯系的有序層次,使之條理化。作為規划、決策和評價的工具,AHP自問世以來,已在各個領域得到迅速普及和推廣,取得了大量的研究成果。層次分析法主要用於確定綜合評價的權重系數,所用數學工具主要是矩陣的運算。信用風險的測算是一個復雜的、多層次的評價過程,每個指標要素之間的關系是相互依存、相互作用的,它們是一個整體。
層次分析法計算過程如下:
一、每兩個指標的相對重要性判斷
- 假設函數f(x,y),它表示評價指標x對於評價指標y的重要程度。約定f(x,y)=1/f(y,x)。如下表所示。
二、構造判斷矩陣
- 設
為全部評價指標所組成的一個集,按照上表中所列的各個指標之間的重要程度,對所有同層次之間的評價指標進行兩兩之間的對比,構造矩陣
,其中
,並且矩陣C稱之為判斷矩陣。
三、計算權重
- 根據上述構造的判斷矩陣C,通過矩陣運算,計算它的最大特征值
,並求出矩陣C關於最大特征值的特征向量
,經過歸一化處理后的xi就是各評價因子的權重。
,矩陣A即為權重向量。
四、一致性檢驗
-
根據下式計算一致性指標CI
-
查找平均隨機一致性指標RI.
根據下式計算一致性比例CR。
當CR<0.10,認為判斷矩陣的一致性是可以接受的,否則對判斷矩陣進行適當的修改,最終達到一致性要求。
參數模型
- 一、邏輯回歸
Logistic回歸用於分類的應用比較廣泛,利用Logistic回歸模型可以將因變量與自變量之間關系的求解轉變為求解被解釋變量發生類別的相應概率。Logistic回歸模型的思想來自於線性回歸,是一種非線性概率回歸,多元線性回歸用來預測由多個連續解釋變量構成的函數模型的被解釋變量數值的大小,而Logistic回歸是用來預測由一個或多個解釋變量構成的分類函數中屬於其中一類的概率。
Logistic邏輯回歸分析的假設前提為:
(1) 數據來自隨機樣本;
(2)自變量之間不存在多重共線性關系。
Logistic函數的形式為:
那么在回歸模型基礎上計算得出的發生的概率和之間存在如下的回歸關系:
邏輯回歸模型是解決0-1回歸問題行之有效的方法,模型的曲線為S型,最大值趨近1,最小值趨近0。通過設定臨界值作為事件發生與否的標准,如果事件發生的概率大於臨界值,則判定事件發生;反之,判定事件不發生。和判別分析方法不同,Logistic回歸模型在理論上並不存在“最優”的分割點,分割點的選取取決於模型使用者的具體目的。
實現方式
一般邏輯回歸數據量不是特別大,spss操作起來簡單易懂,同時SAS\Python都可以實現。
SAS基礎代碼:
proc logistic data=數據名 desending;model 因變量=自變量; run;
判別分析
紐約大學斯特恩商學院教授愛德華·阿特曼(Edward Altman)在1968年就對美國破產和非破產生產企業進行觀察,采用了22個財務比率經過數理統計篩選建立了著名的5變量Z-score模型。Z-score模型是以多變量的統計方法為基礎,以破產企業為樣本,通過大量的實驗,對企業的運行狀況、破產與否進行分析、判別的系統。Z-score模型在美國、澳大利亞、巴西、加拿大、英國、法國、德國、愛爾蘭、日本和荷蘭得到了廣泛的應用。
X1=(流動資產-流動負債)/資產總額;
X2=(未分配利潤+盈余公積金)/資產總額;
X3=(稅前利潤十財務費用)/資產總額;
x4=(每股市價流通股數+每股凈資產非流通股數)/負債總額;
X5=主營業務收入/資產總額
判斷准則:Z<1.8,破產區;1.8≤Z<2.99,灰色區;2.99<Z,安全區
- 二、BSM莫頓模型
1973年,美國芝加哥大學教授 Fischer Black&Myron Scholes提出了著名的B-S定價模型,用於確定歐式股票期權價格,在學術界和實務界引起了強烈反響;同年,Robert C. Merton獨立地提出了一個更為一般化的模型,布萊克-舒爾斯-默頓期權定價模型(下文簡稱B-S-M模型),並由此導出衍生證券定價的一般方法。舒爾斯和莫頓由此獲得了1997年的諾貝爾經濟學獎。現在,布萊克—斯科爾斯—莫頓定價公式已被期貨市場參與者廣泛接受,是金融工程中所有定價理論的基石。
經典BSM模型:
信用資產的違約行為表現為借款人到期不能償還貸款的本金利息。莫頓理論假設一旦借款人的資產市值在一年內低於其現有負債價值,則借款人將發生違約。如果我們能獲得資產波動的相關性,借助以資產為基礎的違約,就可以獲得違約的相關性。而資產波動的相關性,在資本市場上是可以觀察到的,並有完整的數據積累。當借款人的資產市場價值小於一個閥值(負債)時,借款人發生違約。
根據BSM模型,可以將貸款看做一種期權,一旦市值小於其負債就看做執行期權,產生違約。期權執行的概率=N(d2),即違約概率
非參數模型
- 一、聚類分析
對沒有目標變量的數據集根據數據的相似性給出 “自然的”分組,類內對象相似性盡量大,類間對象相似性盡量小。根據結果類的分離性,聚類分為重疊聚類與互斥聚類。
首先定義能度量樣品(或變量)間相似程度(親疏關系)的統計量,在此基礎上求出各樣品(或變量)間相似程度的度量值;然后按相似程度的大小,把樣品(或變量)逐一歸類,關系密切的聚集到一個小的分類單位,關系疏遠的聚合到一個大的分類單位,直到所有的樣品(或變量)都聚合完畢,把不同的類型一一划分出來,形成一個由小到大的分類系統。
聚類分析可以由SPSS點擊實現,也可以由SAS函數實現。聚類分析SAS代碼:
proc varclus data=數據集 outtree=tree;
var 變量;
run;
proc tree data =tree;run;
- 二、決策樹
決策樹(Decision Tree)是一種簡單但是廣泛使用的分類器。通過訓練數據構建決策樹,可以高效的對未知的數據進行分類。決策數有兩大優點:1)決策樹模型可以讀性好,具有描述性,有助於人工分析;2)效率高,決策樹只需要一次構建,反復使用,每一次預測的最大計算次數不超過決策樹的深度。
決策樹在SPSS里有成型的算法,直接單擊使用即可。SAS中的Proc split或Proc hpsplit函數可以直接調用。R語言中的rpart()函數也可以直接調用生成決策樹。
決策樹有很多優點,比如:易於理解、易於解釋、可視化、無需大量數據准備。使用決策樹(預測數據)的成本是訓練決策時所用數據的對數量級。
但這些模型往往不直接使用,決策樹一些常見的缺陷是:
構建的樹過於復雜,無法很好地在數據上實現泛化、數據的微小變動可能導致生成的樹完全不同,因此決策樹不夠穩定、決策樹學習算法在實踐中通常基於啟發式算法,如貪婪算法,在每一個結點作出局部最優決策。此類算法無法確保返回全局最優決策樹。、如果某些類別占據主導地位,則決策樹學習器構建的決策樹會有偏差。因此推薦做法是在數據集與決策樹擬合之前先使數據集保持均衡。
由於決策樹容易對數據產生過擬合,因此分支更少(即減少區域 R_1, … ,R_J)的小樹雖然偏差略微高一點,但其產生的方差更低,可解釋性更強。減少決策樹的方差可以通過袋裝(bagging)和隨機扥林方法來實現,由於隨機森林在效果上好於袋裝,下面只介紹隨機森林函數。
- 三、隨機森林
顧名思義,森林是由很多顆樹構成,隨機森林也是由很多個決策樹構成。隨機森林通過隨機擾動而令所有的樹去相關,在構建每一棵樹時,每一個結點分割前都是采用隨機樣本預測器。隨機森林可以考慮使用大量預測器,不僅因為這種方法減少了偏差,同時局部特征預測器在樹型結構中充當重要的決策。
隨機森林可以使用巨量的預測器,甚至預測器的數量比觀察樣本的數量還多。采用隨機森林方法最顯著的優勢是它能獲得更多的信息以減少擬合數值和估計分割的偏差。
隨機森林可由R語言中的randomforest()函數實現。函數默認生成500顆樹,並且默認每個節點抽取個變量。
- 四、支持向量機(SVM)
支持向量機分類器的基本原理是通過一個非線性變換將一個線性不可分的空間映射到另一個高維的線性可分的空間,並建立一個分類器,這個分類器具有極小的 VC 維數。該分類器僅由大量樣本中的極少數支持向量確定,並且具有最大的邊界寬度。支持向量機算法的好處在於不是直接計算復雜的非線性變換,而是通過計算非線性變換的點積,因而大大簡化了計算量。通過把核函數引入到一些學習算法中來,可以很方便地把線性算法轉換為非線性算法,將其與支持向量機一起稱為基於核函數的方法。
從信用評級問題的特點來看,適合采用SVM進行處理。SVM的特點之一是簡單、推廣能力強和易於解釋。銀行信用評級歷史數據的一個特點是分布零散,各個信用等級的樣本數據量差別很大,而且可能存在較多的有缺陷的樣本。如果使用一般的模式識別模型,由於各個類別樣本數據量不對稱,訓練過程中分類器分類效果會向樣本量大的類別傾斜。然而對商業銀行來說,一些高風險類別的對象,其數量雖然少,但是將其識別出來卻是至關重要的。
另一方面,借款人的歷史數據中存在缺陷是很正常的,甚至會有虛假信息,這些樣本應該被剔除掉。如果使用全部樣本訓練分類器的話,這些樣本的存在可能會對分類器性能產生極大影響。但在SVM模型中,只有支持向量才對優化起作用,而支持向量的數量是非常有限的。因此,可以在使用SVM模型得到結果后。由專家對支持向量集進行研究。既可以得到對結果的深入認識,又可以對支持向量樣本進行審查,如果其中包含了有嚴重缺陷的樣本的話可以剔除出去重新訓練。
SVM模型的另一個特點是泛化能力強,SVM模型的復雜度可以由支持向量的數量來描述,而這又很容易控制。因此,SVM模型不會出現過擬合問題,模型的穩定性相當好,能很好滿足銀行對信用評級系統的穩定性要求。
支持向量機可以通過R語言中kernlab包的ksvm()函數和e1071包中的svm()函數實現。
- 五、K緊鄰學習-KNN
最簡單最初級的分類器是將全部的訓練數據所對應的類別都記錄下來,當測試對象的屬性和某個訓練對象的屬性完全匹配時,便可以對其進行分類。
KNN是通過測量不同特征值之間的距離進行分類。它的的思路是:如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數屬於某一個類別,則該樣本也屬於這個類別。K通常是不大於20的整數。KNN算法中,所選擇的鄰居都是已經正確分類的對象。該方法在定類決策上只依據最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。
R語言里的kknn包可以實現最鄰近算法——使用kknn()函數。
- 六、貝葉斯分類器
貝葉斯分類器的分類原理是通過某對象的先驗概率,利用貝葉斯公式計算出其后驗概率,即該對象屬於某一類的概率,選擇具有最大后驗概率的類作為該對象所屬的類。也就是說,貝葉斯分類器是最小錯誤率意義上的優化。
經典貝葉斯公式:
python金融風控評分卡模型和數據分析微專業課(博主親自錄制視頻):http://dwz.date/b9vv