一种基于弱监督学习的线上借贷反欺诈方法.docx
《一种基于弱监督学习的线上借贷反欺诈方法.docx》由会员分享,可在线阅读,更多相关《一种基于弱监督学习的线上借贷反欺诈方法.docx(10页珍藏版)》请在优知文库上搜索。
1、O引近些年,随着网络通信技术的日新月异,人们能够高效收集到各种各样的信息,而各行各业也都已经完成了大量数据的积累。这些海地数据在极大改善和丰富人们生活的同时,不免让人们重新思考如何更好地进行信息组织、查找与分析.陵者应用场景越来越复杂,人工方式已经不再能够面对如此庞大的信息。基于这些变化,处理数据的机器学习(MaChineIearning)方法的地位迅速提升。目前,网络安全与金融经济等众多领域均非常关心机器学习相关的研究进展,其中网络借贷由了便捷性逐渐受到了广泛关注。但是,网络借贷中存在大量欺诈申请,若借贷人无法及时归还借贷金额,会造成借贷公司的经济损失。关于欺诈和欺诈活动有很多定义注册欺诈审
2、查员协会(AssociationofCertifiedFraudExaminers)将“欺诈”定义为通过故意滥用或误用雇佣组织的资源或资产来占用他人个人资产的行为.提到欺诈的主要成因是通过非法手段获取虚假的利益,将对经济、法律乃至人类道德价值观产生巨大影响.文献中提到涉及金钱和服务的几乎所有技术系统都可能受到欺诈行为的影响,如信用卡、电信、医疗保险、汽车保险和在线拍卖系统等。反欺诈本质上可以表示为一个二分类的异常检测问题,其中正常数据为一类,欺诈和异常数据为另一类.反欺诈模型建立的目的是将欺诈数据从所有数据中区分开来。但是,与传统的二分类问题相比,该领域所使用的数据有很大不同。反欺诈领域中,数
3、据集中的异常数据样例通常较少,而正常数据通常占据绝大部分,同时异常数据的某些或者全部特征通常与其他数据点差别较大。监督学习恻重于对有标签的数据进行训练,而时无标签样本逐一进行标记往往不现实,需要耗费大量的人力物力。面对这种标签数量缺失的情况,无监督学习应运而生。相比监督学习,无监督学习是一种无标签数据进行挖掘的学习模式。换而言之,无监督学习是在不需要给数据打标签的基础上进行数据挖掘工作。无监督学习的特点是在仅对其提供无标签的数据情况下,能够自动从这些数据中找出其潜在的类别规则,在学习完毕并经测试后应用到新的数据上。无监督学习模型在学习时并不知道其分类结果是否正确,也就是说没有标签告诉模型何种学
4、习是正确的。显然,如果只进行监督训练,使用少量“昂货的”有标记的样本而抛弃大量“廉价的”无标记的样本,是对数据资源的一种极大浪费。如果使用无监督学习,则数据集中的标签不能被有效利用,同时训练出的模型具有很大不确定性。针时这两种情况,目前已有研尢人员提出将少量的有标签样本与大量的无标签样本一起进行学习的策略,即弱监督学习算法.人们希里能铭使用弱监督学习的办法,将有限的标签信息和大量未标记数据中的信息有效利用起来,结合少量有标签数据和大量未标记数据中的信息,达到相应的分类和预测效果。在这个过程中,本文主要做出了以卜贡献:基于借贷数据集构成的关系图,实现基r图的半监督克法。利用在数据集上构建关系图,
5、并在关系图上用Iouvain算法进行社区发现,能够在大规模数据集上高效快速完成模型构建。其中,详细展示1.ouvain算法的实现、如何对社区发现结果进行标签传播以及使用K-S(ft衡量反欺诈模型的效果并调盛参数。本文旨在研究分析弱监停算法在互联网金融反欺诈领域的应用,选取网络借贷场景进行研究。结合理论和实证分析,在借贷数据集上构建申请信息的关系图:结合借贷欺诈场景中非数值型数据集的特征,设计相应的弱监督反欺诈模型:在标签数量不足的情况卜.,基于图进行半监督反欺诈模型的构建,并评估相应算法在该数据集上的表现.实验表明,该算法能够在实际应用中有效识别出欺诈.1相关工作最初的欺诈检测研窕主要集中在统
6、计模型,如逻辑网归和神经网络.1988年,神经网络就被用在金融预测领域。1995年,首先使用反向传播神经网络预测财务报表欺诈。2001年和2002年,用统计学习方法时欺诈检测进行了一些一般性分析。2006年,使用过程挖掘方法研尢医疗保健欺诈。而在近期的相关研究中,使用逻辑回归和支持向量机调查了一系列台湾公司的财务报表欺诈行为。利用人工免疫系统识别了一家匿名巴西银行的信用卡欺诈行为,使用决策树对欺诈用户建模,认为在模型评估上准确率和TPR并不适合这种问题,并以此改进了决策树的损失函数。利用集成学习分类器,对比朴素贝叶斯,支出向fi机和K近邻算法进行信用卡用户的反欺诈建模,发现集成学习的效果好于堆
7、一的算法。讨论计.算机智能和云计算在金融反欺诈系统上的运用。使用神经网络并引入用户地理位置信息建立反欺诈系统,效果能够提升80%.弱监督学习方法适用于在构建模型的过程中,使用的训练数据只有一小部分数据有标签,而大部分数据没有标笺,且只用这一小部分有标签的数据不足以训练一个好的模型的情况。弱监督学习是一个较为总括性的术语,涵盖了试图通过较弱的监督来构建预测模型的各种研究.其中,数据标签可能存在数量不足、粗粒度较大以及不够准确的情况。在针时数据集标签数量不足的半监督学习中,有两个基本假设,即聚类假设(C1.usterAssumption)和流形假设(ManifoIdAssumption)这两个假设
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 基于 监督 学习 线上 借贷 欺诈 方法
