基于weka平台的个人信用评级模型设计与实现.docx
《基于weka平台的个人信用评级模型设计与实现.docx》由会员分享,可在线阅读,更多相关《基于weka平台的个人信用评级模型设计与实现.docx(9页珍藏版)》请在优知文库上搜索。
1、基于weka平台的个人信用评级模型设计与实现目录第一章概论31.l课题背景31.2 实验目的31.3 问题与挑战3第二章数据准备与预处理42.1 数据采集42.2 数据预处理42.2.1 数据清理4222数据变换5第三章建立模型与分类实现53.1 贝叶斯分类方法53.2 基于决策树的方法53.3 支持向量机方法6第四章模型评估与比拟74.1 预测精确度及效率比拟74.1.1 预测精度比拟74.1.2 效率比拟74.2 模型应用分析与限制74.2.1 个人信用评估模型应用分析74.2.2 个人信用评估模型应用限制8第五章后记错误!未定义书签。5.1 任务分配95.2 个人收获10基于weka平台
2、的个人信用评级模型设计与实现第一章概论1.1 课题背景随着改革开放步伐的加快,世界经济全球化的融合,越来越多的中小型企业在机遇和挑战的夹缝中艰难求存,越来越多的工薪族在面对价格不断上涨的房子面前望而却步,贫富差距增加,贫困人口想要改变现状步履艰难。在这种状况下,贷款融资成为一个走向成功的突破口。然而,曾经普通人想要向贷款不啻于上青天。首先,大的国有银行通常只效劳大客户,商业贷款动辄上百上千万,对于中小型企业和个人,因为风险大,收益少,通常不在其考虑之列。其次,中小型城市迅速开展,但是城市底层,农村乡镇等地方,银行深入不到。最后,民间贷款(高利贷)现象纷乱,扰乱市场秩序。至此,许多小额贷款公司应
3、运而生,某些大企业,诸如阿里等大型企业也开始将目光放注于这土地,纷纷开启小额贷款。小额贷款(MiCroCredit)是以个人或家庭为核心的经营类贷款,其主要的效劳对象为广阔工商个体户、小作坊、小业主。贷款的金额一般为100O元以上,1000万元以下。然而,无论是对个人还是对信贷公司来说,贷款都不能盲目。贷款金额的大小,是否具有归还能力等等都是需要仔细考量的。1.2 实验目的为信贷公司建立一个信用等级评估系统,对贷款人的家庭状况,个人年收入,固定资产估值,教育水平,有无历史拖欠记录等属性进行分析,由此来对贷款人进行信用等级的划分,目前将其分为A,B,C三个等级,属于对应信用等级的贷款人具有相应的
4、贷款金额上限。1.3 问题与挑战对目前己有的贷款人数据的婚姻状况,个人年收入,固定资产估值,教育水平,有无历史拖欠记录等属性在Weka平台上按等级进行划分,每个人的属性都属于不同的等级,全方位综合的将其分类为不同信用等级,以此作为训练集估测出一个分类模型,对于今后需要贷款的人在此模型上进行评估以确定该贷款人的信用等级,信贷公司可依据此等级来确定对其的贷款金额的大小。第二章数据准备与预处理2.1 数据采集个人客户信用评级从婚姻、年收入、工作年限、固定资产估值、教育水平、拖欠记录次数等六个方面来分析借款人的信用状况。在实际的商业银行环境中,并非对所有的大客户的个人信息都有科学的管理,根据我国商业银
5、行的实际情况以及国外多家金融机构的信用评级情况,评估客户的信用情况要考虑四大主要因素:申请人的自然情况、职业情况、家庭情况、与银行的业务往来关系。这四大因素实际上是对信用评级体系的一种综合反映,具体包括以下因素:(1)自然情况:年龄、性别、婚姻状况、健康状况、文化程度、住宅类型、当前住宅居住时间:(2)职业情况:单位性质、职业、职位、职称、在当前单位的工作年限、月收入:(3)家庭情况:家庭人均月收入、家庭债务收入比例;(4)与银行的业务往来关系:账户、存款金额、业务往来、其他借款情况。由于实验时间和个人能力所限,经小组讨论后我们在四大主要因素中选取了婚姻、年收入、工作年限、固定资产估值、教育水
6、平、拖欠记录次数六个属性,其中婚姻划分三个等级,年收入、工作年限、固定资产估值、教育水平、拖欠记录次数均划分为四个等级,总共收集300分数据样本。2.2 数据预处理初步采集的数据很多是不完整的、有噪声的,所以在获取数据源后,需要进行数据的清洗和转换,使其符合数据挖掘算法的要求,并能够产生最为可靠和准确的结果。2.2.1 数据清理先对数据进行整理、对噪声数据进行处理,以增加数据挖掘结果的准确性。(1)对空值的处理:空值出现的可能性很多,主要是由于数据采集时缺乏样本数据产生。对空值的处理有很多方法,比方:最大频数填充、平均值填充、人工随机填充等。根据本数据样本的具体情况我们决定采用人工随机填充的方
7、法。(2)对噪声数据的处理:可以采用分箱、聚类、回归等。本实验采用分箱的方法对噪声数据进行处理。2.2.2 数据变换在所得的原始信息中绝大局部的字段值都是字符值,为了在数据处理中,占用更小的空间和取得更快的计算速度,要把字符型的数据转化为数值型的数据。第三章建立模型与分类实现3.1 贝叶斯分类方法贝叶斯分类器是一个统计分类器。它能够预测类别所属的概率。如:一个数据对象属于某个类别的概率。贝叶斯分类器是基于贝叶斯定理(以下将会介绍)而构造出来的。对分类方法进行比拟的有关研究结果说明:简单贝叶斯分类器(称为根本贝叶斯分类器)在分类性能上与决策树和神经网络都是可比的。在处理大规模数据库时,贝叶斯分类
8、器巴表现出较高的分类准确性和运算性能。设X为一个类别未知的数据样本。H为某个假设,假设数据样本X属于一个特定的类别C,那么分类问题就是决定P(HX),即在获得数据样本X时,H假设成立的概率。P(HIX)是事后概率,或为建立在X(条件)之上的H概率。例如:假设数据样本是水果,描述水果的属性有颜色和形状。假设X为红色和圆状,H为X是一个苹果的假设,因此P(HlX)就表示在X是红色和圆状时,确定X为一个苹果的H假设成立的概率;相反P(三)为事前概率,在上述例子中,P(三)就表示任意一个数据对象,它是一个苹果的概率,无论它是何种颜色和形状。与P(三)相比,P(H1X)是建立在更多信息根底之上的,而前者
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 weka 平台 个人信用 评级 模型 设计 实现