建模常用的自定義函數(ks,auc等）

本文轉載自查看原文 2020-09-03 17:43 548 sklearn

1.統計拆分訓練集測試集之后的分布

def summary(data_train, data_test, y):
    '''
    函數目標：統計數據拆分訓練集和測試集之后的分布（如樣本數量，壞賬率之類的）
    變量：
    data_train:訓練集（包括label）
    data_test:測試集（包括label),如果label是單獨的，需要先合並，但是也可以直接（data_train, data_test = train_test_split()
    y:label的columns_name
    返回值：
    一個df
    '''

    summary = pd.DataFrame(
        {
            '樣本數': [len(data_train), len(data_test)],
            '壞賬數': [data_train[y].sum(), data_test[y].sum()],
            '壞賬率': [
                round(data_train[y].mean(), 4),
                round(data_test[y].mean(), 4)
                ],
        },
        index=['訓練集', '測試集']
    )[['樣本數', '壞賬數', '壞賬率']]
    summary.index.name = '數據集'
    return summary

2.計算ks

def ks(self, data, y):
    '''
    目標：計算出分類模型的ks值
    變量：
    self:模型fit(x,y)，如（self=tree.fit(x,y))
    data:一般是訓練集（不包括label）或者是測試集（也是不包括label）
    y:label的column_name 
    返回：訓練集（或者測試集）的ks值

    '''

    p = self.predict(data)
    fpr, tpr, p_threshold = metrics.roc_curve(data[y], p,
                                              drop_intermediate=False,
                                              pos_label=1)
    df = pd.DataFrame({'fpr': fpr, 'tpr': tpr, 'p': p_threshold})
    df.loc[0, 'p'] = max(p)

    ks = (df['tpr'] - df['fpr']).max()

    return ks

3.計算auc

def auc(self, data, y):
    '''
    目標：計算出分類模型的ks值
    變量：
    self:模型fit(x,y)，如（self=tree.fit(x,y))
    data:一般是訓練集（不包括label）或者是測試集（也是不包括label）
    y:label的column_name 
    返回：訓練集（或者測試集）的auc值

    '''   

    p = self.predict(data)
    fpr, tpr, p_threshold = metrics.roc_curve(data[y], p,
                                              drop_intermediate=False,
                                              pos_label=1)
    df = pd.DataFrame({'fpr': fpr, 'tpr': tpr, 'p': p_threshold})
    df.loc[0, 'p'] = max(p)

    roc_auc = metrics.auc(fpr, tpr)

    return roc_auc

4.ks畫圖

def plot_ks(self, data, y):
    '''
    目的：畫出ks的圖片
    變量：
    self:模型fit(x,y)，如（self=tree.fit(x,y))
    data:一般是訓練集（不包括label）或者是測試集（也是不包括label）
    y:label的column_name 
    返回：訓練集（或者測試集）的ks圖片

    '''

    p = self.predict(data)

    fpr, tpr, p_threshold = metrics.roc_curve(data[y], p,
                                              drop_intermediate=False,
                                              pos_label=1)
    df = pd.DataFrame({'fpr': fpr, 'tpr': tpr, 'p': p_threshold})
    df.loc[0, 'p'] = max(p)

    df['diff'] = df['tpr'] - df['fpr']
    ks = df['diff'].max()
    ks_p = df.loc[df['diff'] == ks, 'p'].iloc[0]

    fig = plt.figure(figsize=(2.8, 2.8), dpi=140)
    ax = fig.add_subplot(111)
    ax.plot(df['p'], df['tpr'], color='navy', lw=2, label='TPR')
    ax.plot(df['p'], df['fpr'], color='darkorange', lw=2, label='FPR')
    ax.plot(
        [ks_p, ks_p],
        [
            df.loc[df['p'] == ks_p, 'tpr'].iloc[0],
            df.loc[df['p'] == ks_p, 'fpr'].iloc[0]
        ],
        color='crimson',
        lw=2,
        label='KS = %.4f' % ks
    )
    ax.set_xlim([0.0, df['p'].max()])
    ax.set_ylim([0.0, 1.05])
    ax.set_xlabel('Prob Threshold')
    ax.set_ylabel('Rate')
    ax.set_title('K-S Curve')
    ax.legend(loc="upper right")

    return fig

5.auc畫圖

def plot_roc(self, data, y):
    '''
    目標：計算出分類模型的ks值
    變量：
    self:模型fit(x,y)，如（self=tree.fit(x,y))
    data:一般是訓練集（不包括label）或者是測試集（也是不包括label）
    y:label的column_name 
    返回：訓練集（或者測試集）的auc的圖片

    '''      

    p = self.predict(data)
    fpr, tpr, p_threshold = metrics.roc_curve(data[y], p,
                                              drop_intermediate=False,
                                              pos_label=1)
    df = pd.DataFrame({'fpr': fpr, 'tpr': tpr, 'p': p_threshold})
    df.loc[0, 'p'] = max(p)

    ks = (df['tpr'] - df['fpr']).max()
    roc_auc = metrics.auc(fpr, tpr)

    fig = plt.figure(figsize=(2.8, 2.8), dpi=140)
    ax = fig.add_subplot(111)

    ax.plot(fpr, tpr, color='darkorange', lw=2,
            label='ROC curve\nAUC = %0.4f\nK-S = %0.4f' % (roc_auc, ks)
            )
    ax.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')

    ax.set_xlim([0.0, 1.0])
    ax.set_ylim([0.0, 1.05])
    ax.set_xlabel('False Positive Rate')
    ax.set_ylabel('True Positive Rate')
    ax.set_title('ROC Curve')
    ax.legend(loc="lower right")
    plt.close()
    return fig

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 PHP常用的自定義函數 PHP常用的自定義函數 mysql 常用自定義函數解析 JS常用自定義函數總結 PHP常用的自定義函數 php常用自定義函數 tensorflow添加自定義的auc計算operator auc ks 新理解自定義函數自定義函數