《Spark大数据技术与应用案例教程》教案第21课预处理银行个人信贷业务数据.docx
《《Spark大数据技术与应用案例教程》教案第21课预处理银行个人信贷业务数据.docx》由会员分享,可在线阅读,更多相关《《Spark大数据技术与应用案例教程》教案第21课预处理银行个人信贷业务数据.docx(3页珍藏版)》请在优知文库上搜索。
1、课题预处理银行个人信贷业务数据课时2课时(90min)教学目标知识技能目标:(1)使用RDD的不同操作处理数据。(2)将RDD转换为DataFramee(3)将DataFrame保存为不同类型的文件。素质目标:综合应用所学知识,提升归纳总结能力和实践能力。教学重难点教学重点:将RDD转换为DataFrame,将DataFrame保存为不同类型的文件教学难点:SPark蝙Ib理与分析的基本方法教学方法案例分析法、问答法、讨论法、讲授法教学用具电脑、投影仪、多媒体课件、教材教学过程主要教学内容及步骤课前任务【教师】布置课前任务,和学生负责人取得联系,让其提醒同学通过APP或其他学习软件,完成课前任
2、务请大家回顾前面所学内容.【学生】完成课前任务考勤【教师】使用APP进行签到【学生】班干部报请假人员及原因问题导入【教师】提出以下问题:请简述将RDD转换为DataFrame的过程。【学生】思考、举手回答课堂实践【教师】描述和分析本次任务内容,并详细演示任务操作过程,引导学生进行操作【任务描述】由于原数据集中存在字段名称过长、字段排列无条理、数据行重复和数据行中含有空值(即NA)等问题,因此本任务使用SparkSQL对原始数据集进行预处理,以便在后续的分析、建模或其他数据处理任务中使用。【任务分析】银行个人信贷业务数据保存在7usr/local/spark/mycode/CreditCard/
3、cs-training.csvH文件中。该数据集包含12个字段,第一个字段为索引字段且字段名称为空。本任务首先读取cs-trainingcsv文件中的数据创建DataFrame;然后使用DataFrame提供的方法修改原数据集的字段名称和字段顺序,并删除重复的数据行和含有空值的数据行;最后将预处理后的数据保存至新的文件中,生成新的数据集。预处理前后数据集中各字段的说明如表所示。表7-1预处理前后数据集中各字段的说明原数据集中的字段名称新数据集中的字段名称说明Index索引列ageage年龄MonthlyInconieMonthlyincome月收入NumberOfDependentsfamil
4、y家庭成员的数量SeriousDlqin2yrs2yrs是否逾期还款。取值1代表逾期还款;()代表未逾期还款NumberOfTime30-59DaysPas(DueNotWorseTime30-59逾期3059天还款的次数NumberOfTime60-89DaysPastDueNotWorseTime60-89逾期6089天还款的次数NumberOfTimesQODaysLateTimes90逾期90天以上还款的次数RevolvingutilizationOfLJnsecuredLinesUnsecuredLines担保额度循环利用率DebtRatioDebtRatio负债上碎Numberof
5、OpenCreditLinesAndLoansOpenCredit开放信用额度和贷款数量NumberRealEsiateLoansOrLinesReaIEsiate房地产贷款数量或信用额度打开PyCharm,新建CrediiCard目录,在该目录下新建preprocessing.文件,然后在该文件中编写应用程序,实现银行个人信贷业务数据的预处理。步骤IA创建SparkSession对象。步骤2A使用read.csv()方法读取Hcs-training.csvH文件中的数据创建DataFrame(即df)。步骤3A重命名df中字段的名称,得到一个新的DataFrame(即df.name)首先定义
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Spark大数据技术与应用案例教程 Spark 数据 技术 应用 案例 教程 教案 21 预处理 银行 个人 信贷业务