(银行)客户流失预警研究与应用.docx
《(银行)客户流失预警研究与应用.docx》由会员分享,可在线阅读,更多相关《(银行)客户流失预警研究与应用.docx(13页珍藏版)》请在优知文库上搜索。
1、(银行)客户流失预警研究与应用零售客户是银行的重要资源,客户资产更是决定银行盈利能力和发展的重要因素。目前行业内,零售客户资产纯流失(不计算增量)普遍到达15%甚至更高,客户资产流失问题已迫在眉睫。随着市场的逐渐开放,新户的获取成本达到了存量户维护成本的5倍以上,获取新客户付出的成本收益率远低于维系优质老客户的成本收益率。同时,新户还存在用户习惯培养、价值提升等问题,因此相比于获取新户,维护好高价值的存量户更容易实现,提前挽留即将流失的客户往往也是商业银行在过去的经营模式中容易忽略的部分。过去几年的时间里,机器学习与大数据技术日趋成熟,在金融领域的应用也日趋增多,机器学习与大数据技术的核心在于
2、以数据量和运算提高预测的准确性,而目前银行的数据沉淀已到达一定水平,客户财务、背景、交易等行为的数据积累越来越丰富,还有手机银行、微信银行等客户终端访问行为的数据作为补充,在数据源层面已准备充分。技术方法介绍在客户流失的领域,传统上常用的方法有线性分类、最近邻分类法等,但这些方法都有自身的缺陷,最主要的问题就是在分类的准确性和计算的效率上,因此,在初期算法的选择上,并没有选用这几种算法进行试验,而是选取了在一般模型上效果比较好的逻辑回归和随机森林模型。1 .逻辑回归逻辑回归(LogiStiCRegreSSiOn)是一种广义的线性回归分析模型,常用于数据挖掘、疾病自动诊断、经济预测等领域。其本质
3、来说属于二分类问题。也就是预测值只有0和1(是或否)。逻辑回归模型有以下优点:一是预测结果是介于0和1之间的概率;二是可以适用于连续性和类别性自变量;三是该模型容易使用和解释。当然,逻辑回归也不是万能的,它也有一些缺点:一是对模型中自变量多重共线性较为敏感;二是它的预测结果呈“S”型,因此从Log(OddS)向概率转化的过程是非线性的,在两端随着LOg(OddS)值的变化,概率变化很小,边际值太小,斜率太小,而中间概率的变化很大,很敏感,导致很多区间的变量变化对目标概率的影响没有区分度,确定阈值比较困难。2 .随机森林随机森林(RandOmForest)是结合了一种决策树算法和Bagging方
4、法的一种算法,也是现在热门的算法之一。(1)决策树。决策树是随机森林的基础,它是以实例为基础的归纳学习算法。常用的决策树算法有ID3、C4.5、CART三种。三种算法的模型构建思想都非常类似,但它们各自使用了不同的指标。(2) Bagging方法。Bagging算法的基础方法是自助抽样法(BOOtStTaPSampling)o自助抽样法是指从原始样本数据集中有放回地随机抽取训练样本数据集,训练样本数据集中的个数与原始样本数据集中的个数相同。Bagging的基本思想是:选定一种元学习算法和一个原始样本数据集,利用元学习算法进行训练多轮,每轮训练集用BoOtStraPSamPling抽取的方式从原
5、始样本数据集获得。(3)随机森林原理。随机森林是一种基于决策树的算法。基本思想就是对原始样本数据集进行Bootstrap重抽样,然后用这些多次抽取的样本分别建立分类器,就会产生多种分类结果,最后根据这些分类结果对未知分类项进行投票,以决定它的分类。3 .模型评估客户流失预测是一个典型的分类问题,针对分类问题,常见的模型优劣的评估方法有混淆矩阵、ROC曲线和AUC值。(1)混淆矩阵。混淆矩阵是监督学习中的一种可视化工具,主要用于比较分类结果和实例的真实信息。矩阵中的每一行代表实例的预测类别,每一列代表实例的真实类别。具体如表1所示。4 淆矩阵表1预测值混淆矩阵正类别负类别正类别TPFP真实值八负
6、类别TNFN混淆矩阵中,预测正确的类别为真实值为正,预测值为正的TP,以及真实值为负,预测值为负的FN,预测正确的概率是TP+FN/TP+FP+TN+FN。预测的正确率越高,就说明模型的效果越好。(2)ROC曲线与AUC值。ROC曲线实质上就是FP率与TP率之间权衡的关系,曲线上的每个点表示正例的分类概率值取不同值时得到的不同的混淆矩阵。通俗地来说,即在TP率随着FP率递增的情况下,比较谁增长得更快。TP率增长得越快,ROC曲线越靠近纵轴,曲线的斜率越大。ROC曲线以图形的方式直观的展现模型的分类精度,可以很快地判断出模型的拟合效果。尤其当正负实例不平衡时,这种模型评价方式相比普通的平均分类精
7、度评价方式优势显著。客户流失预测模型构建1.基于逻辑回归和随机森林的客户流失预测第一次建模选用了逻辑回归和随机森林的结合方法,第一步骤选用了逻辑回归分类,第二步骤选用了随机森林。对整体数据有一定的了解后,可以先进行第一步的建模,也就是预测客户是否会流失的情况。针对这方面,使用了2018年3月2019年3月的数据进行模型的调试,并用2019年46月的实际数据预测流失客户,并与6月末的数据进行对比。最终,使用逻辑回归和随机森林预测出了可能流失的人数有6469人,其中有3644人真实流失,预测的准确性达到了56.33%o第一步骤预测完后,就可以对预测出可能会流失的人员进行资金流失等级预测,建模过程与
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 银行 客户 流失 预警 研究 应用
