金融大数据信用风险控制项目解决方案说明书.docx
《金融大数据信用风险控制项目解决方案说明书.docx》由会员分享,可在线阅读,更多相关《金融大数据信用风险控制项目解决方案说明书.docx(11页珍藏版)》请在优知文库上搜索。
1、金融大数据信用风险控制项目解决方案说明书XX科技股份有限公司编制目录一、项目存在问题及需解决问题31. 存在问题32. 需解决问题3二、解决方案51. 分布式文件存储(HDFS)62. 分布式数据库(HBASE)73. 分布式计算框架(MaPRedUCe)74. 分布式消息订阅(Kafka)7三、开发范围81. 用户注册82. 用户登录93. 权限管理94. 系统管理105. 运维管理106. API117. 页面展示11一、项目存在问题及需解决问题1 .存在问题数据采集问题数据存储问题数据预处理问题数据挖掘问题可视化展羽问题2 .需解决问题数据采集“金融大数据信用风险控制平台”首先需要收集各
2、种金融数据,它们可能是结构化的,也可能是半结构化或非结构化的;既可能来自银行内部的各业务系统,也可能由外部提供;既可以是静态的(如属性数据),也可以是动态的(如行为数据而金融数据采窠产品就是根据业务需要,将这些数据采集到金融大数据信用风险控制项目”中。数据存储HadoOP集群通过将数据分配到多个集群节点上并进行并行处理,因此尤为适合对大数据的存储和分析。Hadoop集群通过添加节点数量来有效的扩展集群,因此具有极好的可扩展性;HadOOP软件都是开源的,也不必购买昂贵的高档服务器,因此具有很好的性价比。Hado叩集群将数据分片发送至多个节点保存,因此具有极高的容错性。数据覆处理采集到金融数据来
3、自多种数据源,大多存在着不完整性和不一致性,无法直接用于数据挖掘或严重影响数据挖掘的效率。因此在进行数据挖掘之前,通过使用数据预处理工具,灵活对原始数据的清理、变换、集成等处理,可以减少挖掘所需数据量,缗短所需时间,并极大提高数据挖掘的质量。数据挖掘数据挖掘是通过分析数据、从大量数据中寻找其潜在规律的技术。利用预测、关联、分类、聚类、时序分析等技术,数据挖掘可以从海量的、不完全的、有噪声的、模楣的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识。可视化展现数据挖掘得到的结果,往往数据量巨大、关联关系复杂、维度多以及双向互动需求等。二、解决方案1.解决方案架构系统开发
4、平台使用Hadoop大数据开发平台。Hadoop是一个高度可扩展的存储平台,可以存储和分发横跨数百个并行操作的廉价的服务器数据集群。能扩展到处理大量的数据,能提供成百上千TB的数据节点上运行的应用程序。HadooP能够有效的在几分钟内处理TB级的数据。相比关系型数据库管理系统更具有优势。它适用于任何规模的非结构化数据持续增长的企业,将帮助电信运营商持续提高用户体验。系统采用面向对象的软件设计方法,把整个系统看作是多个离散对象的组合。系统设计时,首先把业务流程分解成功能模块及其业务实体对象,然后根据业务流程分析对于这些业务实体对象的操作方法,形成业务处理对象,最后把各个功能模块关联起来,形成系统
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 金融 数据 信用风险 控制 项目 解决方案 说明书