《Spark大数据技术与应用案例教程》教案第8课配置SparkSQL.docx
《《Spark大数据技术与应用案例教程》教案第8课配置SparkSQL.docx》由会员分享,可在线阅读,更多相关《《Spark大数据技术与应用案例教程》教案第8课配置SparkSQL.docx(5页珍藏版)》请在优知文库上搜索。
1、课题配置SparkSQL课时2课时(90min)教学目标知识技能目标:(1)了解SParkSQL的特点(2)理解SParkSQL的架构(3)理解SparkSQL的运行原理素质目标:培养举一反三的能力,学会融会贯通教学重难点教学重点:SparkSQL的特点、架构和运行原理教学难点:配置SparkSQL教学方法案例分析法、问答法、讨论法、讲授法教学用具电脑、投影仪、多媒体课件、教材教学过程主要教学内容及步骤课前任务【教师】布置课前任务,和学生负责人取得联系,让其提醒同学通过APP或其他学习软件,完成课前任务请大家了解SparkSQL的相关知识。【学生】完成课前任务考勤【教师】使用APP进行签到【学
2、生】班干部报请假人员及原因问题导入(5min)【教师】提出以下问题:什么是SparkSQL?【学生】思考、举手回答传授新知【教师】通过学生的回答引入新知,介绍SParkSQL的特点、架构和运行原理等知识一、SParkSQL概述1 .SparkSQL的产生【教师】介绍SParkSQL的产生在早期的Hadoop生态系统中,主要使用M叩RedUCe组件进行数据处理。MapReduce虽然能够处理大规模数据,但是其学习成本h麻高。HiVe的出现解决了这个问题,它为大规模数据处理提供了更加方便的结构化查询语言接口,让用户能够像操作关系型数据库一样进行数据分析.Hive能够与Hadoop高度集成,但是Hi
3、ve在处理大规模数据时依然存在性能瓶颈,其原因是Hive需要将直询转换为M叩RedUCe任务来运行,而这种转换可能存在较长的延迟时间。为了解决上述问题,加州大学伯克利分校的AMP实验室开发了基于Hive的结构化数据处理组件Shark,为了实现Hive的兼容,Shark重用了Hive的HiveQL解析、逻辑执行计划翻译、执行it划优化等逻辑,但在执行层面将MapReduce作业替换成了Spark作业。由于Shark使用的是Spark基于内存的计算模型,因此性能得到了极大的提升.Shark的设计导致了两个问题,一是执行优化完全依赖于Hive,其性能受到约束;二是Spark是线程级并行,而M叩Red
4、UCe是进程级并行,会导致Spark和Hive兼容存在线程安全问题。因此,在2014年Shark项目被中止,AMP实验室转向SparkSQL的开发。2 .SparkSQL的特点【教师】介绍SParkSQL的特点SparkSQL主要用于处理结构化数据,它不仅支持SQL查询,还提供了一种基于DataFrame的编程抽象,可以方便地进行分布式数据处理和分析。SParkSQL具有以下特点。(1)支持多种数据源。(2)支持SQL窗机(3)提供了DataFramee(4)支持多种编程语言.(5)支持与Spark的其他组件集成。二、SParkSQL的架构【教师】展示SparkSQL的架构图,井进行讲解Spa
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Spark大数据技术与应用案例教程 Spark 数据 技术 应用 案例 教程 教案 配置 SparkSQL