文章详情页

利用Python计算KS的实例详解

更多 QQ空间微信 QQ好友腾讯朋友复制链接

【字号：大中小】日期：2022-08-04 15:15:57浏览：7作者：猪猪

在金融领域中，我们的y值和预测得到的违约概率刚好是两个分布未知的两个分布。好的信用风控模型一般从准确性、稳定性和可解释性来评估模型。

一般来说。好人样本的分布同坏人样本的分布应该是有很大不同的，KS正好是有效性指标中的区分能力指标：KS用于模型风险区分能力进行评估，KS指标衡量的是好坏样本累计分布之间的差值。

好坏样本累计差异越大，KS指标越大，那么模型的风险区分能力越强。

1、crosstab实现，计算ks的核心就是好坏人的累积概率分布，我们采用pandas.crosstab函数来计算累积概率分布。

2、roc_curve实现，sklearn库中的roc_curve函数计算roc和auc时，计算过程中已经得到好坏人的累积概率分布，同时我们利用sklearn.metrics.roc_curve来计算ks值

3、ks_2samp实现，调用stats.ks_2samp()函数来计算。链接scipy.stats.ks_2samp¶为ks_2samp()实现源码，这里实现了详细过程

4、直接调用stats.ks_2samp()计算ks

import pandas as pd import numpy as npfrom sklearn.metrics import roc_curvefrom scipy.stats import ks_2samp def ks_calc_cross(data,pred,y_label): ’’’ 功能: 计算KS值，输出对应分割点和累计分布函数曲线图输入值: data: 二维数组或dataframe，包括模型得分和真实的标签 pred: 一维数组或series，代表模型得分（一般为预测正类的概率） y_label: 一维数组或series，代表真实的标签（{0,1}或{-1,1}）输出值: ’ks’: KS值，’crossdens’: 好坏客户累积概率分布以及其差值gap ’’’ crossfreq = pd.crosstab(data[pred[0]],data[y_label[0]]) crossdens = crossfreq.cumsum(axis=0) / crossfreq.sum() crossdens[’gap’] = abs(crossdens[0] - crossdens[1]) ks = crossdens[crossdens[’gap’] == crossdens[’gap’].max()] return ks,crossdens def ks_calc_auc(data,pred,y_label): ’’’ 功能: 计算KS值，输出对应分割点和累计分布函数曲线图输入值: data: 二维数组或dataframe，包括模型得分和真实的标签 pred: 一维数组或series，代表模型得分（一般为预测正类的概率） y_label: 一维数组或series，代表真实的标签（{0,1}或{-1,1}）输出值: ’ks’: KS值 ’’’ fpr,tpr,thresholds= roc_curve(data[y_label[0]],data[pred[0]]) ks = max(tpr-fpr) return ks def ks_calc_2samp(data,pred,y_label): ’’’ 功能: 计算KS值，输出对应分割点和累计分布函数曲线图输入值: data: 二维数组或dataframe，包括模型得分和真实的标签 pred: 一维数组或series，代表模型得分（一般为预测正类的概率） y_label: 一维数组或series，代表真实的标签（{0,1}或{-1,1}）输出值: ’ks’: KS值，’cdf_df’: 好坏客户累积概率分布以及其差值gap ’’’ Bad = data.loc[data[y_label[0]]==1,pred[0]] Good = data.loc[data[y_label[0]]==0, pred[0]] data1 = Bad.values data2 = Good.values n1 = data1.shape[0] n2 = data2.shape[0] data1 = np.sort(data1) data2 = np.sort(data2) data_all = np.concatenate([data1,data2]) cdf1 = np.searchsorted(data1,data_all,side=’right’)/(1.0*n1) cdf2 = (np.searchsorted(data2,data_all,side=’right’))/(1.0*n2) ks = np.max(np.absolute(cdf1-cdf2)) cdf1_df = pd.DataFrame(cdf1) cdf2_df = pd.DataFrame(cdf2) cdf_df = pd.concat([cdf1_df,cdf2_df],axis = 1) cdf_df.columns = [’cdf_Bad’,’cdf_Good’] cdf_df[’gap’] = cdf_df[’cdf_Bad’]-cdf_df[’cdf_Good’] return ks,cdf_df data = {’y_label’:[1,1,1,1,1,1,0,0,0,0,0,0], ’pred’:[0.5,0.6,0.7,0.6,0.6,0.8,0.4,0.2,0.1,0.4,0.3,0.9]} data = pd.DataFrame(data)ks1,crossdens=ks_calc_cross(data,[’pred’], [’y_label’]) ks2=ks_calc_auc(data,[’pred’], [’y_label’]) ks3=ks_calc_2samp(data,[’pred’], [’y_label’]) get_ks = lambda y_pred,y_true: ks_2samp(y_pred[y_true==1], y_pred[y_true!=1]).statisticks4=get_ks(data[’pred’],data[’y_label’])print(’KS1:’,ks1[’gap’].values)print(’KS2:’,ks2)print(’KS3:’,ks3[0])print(’KS4:’,ks4)

输出结果：

KS1: [ 0.83333333]KS2: 0.833333333333KS3: 0.833333333333KS4: 0.833333333333

当数据中存在NAN数据时，有一些问题需要注意！

例如，我们在原数据中增加了y_label=0，pred=np.nan这样一组数据

data = {’y_label’:[1,1,1,1,1,1,0,0,0,0,0,0,0],’pred’:[0.5,0.6,0.7,0.6,0.6,0.8,0.4,0.2,0.1,0.4,0.3,0.9,np.nan]}

此时执行

ks1,crossdens=ks_calc_cross(data,[’pred’], [’y_label’])

输出结果

KS1: [ 0.83333333]

执行

ks2=ks_calc_auc(data,[’pred’], [’y_label’])

将会报以下错误

ValueError: Input contains NaN, infinity or a value too large for dtype(’float64’).

执行

ks3=ks_calc_2samp(data,[’pred’], [’y_label’])

输出结果

KS3: 0.714285714286

执行

ks4=get_ks(data[’pred’],data[’y_label’])

输出结果

KS4: 0.714285714286

我们从上述结果中可以看出

三种方法计算得到的ks值均不相同。

ks_calc_cross计算时忽略了NAN，计算得到了数据正确的概率分布，计算的ks与我们手算的ks相同

ks_calc_auc函数由于内置函数无法处理NAN值，直接报错了，所以如果需要ks_calc_auc计算ks值时，需要提前去除NAN值。

ks_calc_2samp计算得到的ks因为searchsorted()函数（有兴趣的同学可以自己模拟数据看下这个函数），会将Nan值默认排序为最大值，从而改变了数据的原始累积分布概率，导致计算得到的ks和真实的ks有误差。

总结

在实际情况下，我们一般计算违约概率的ks值，这时是不存在NAN值的。所以以上三种方法计算ks值均可。但是当我们计算单变量的ks值时，有时数据质量不好，存在NAN值时，继续采用ks_calc_auc和ks_calc_2samp就会存在问题。

解决办法有两个

1. 提前去除数据中的NAN值

2. 直接采用ks_calc_cross计算。

以上这篇利用Python计算KS的实例详解就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持好吧啦网。

Python 编程

上一条：使用python 计算百分位数实现数据分箱代码下一条：python生成大写32位uuid代码

相关文章：

1. Docker部署ELK7.3.0日志收集服务最佳实践2. Docker数据卷常用操作代码实例3. Java集合功能与用法实例详解4. CentOS7使用docker部署Apollo配置中心的实现5. 解决Docker启动Elasticsearch7.x报错的问题6. golang recover函数使用中的一些坑解析7. Django多个app urls配置代码实例8. php与阿里云短信接口接入操作案例分析9. PHP页面静态化——纯静态与伪静态用法详解10. JS PHP字符串截取函数实现原理解析

排行榜

					
					Docker部署ELK7.3.0日志收集服务最佳实践
Java集合功能与用法实例详解
Docker数据卷常用操作代码实例
Django多个app urls配置代码实例
CentOS7使用docker部署Apollo配置中心的实现
golang recover函数使用中的一些坑解析
解决Docker启动Elasticsearch7.x报错的问题
Docker部署nginx实现过程图文详解
关于Prometheus + Spring Boot 应用监控的问题
asp.net core应用docke部署到centos7的全过程
vue完美实现el-table列宽自适应
				

热门标签