Python网络爬虫项目实战教学教案46.docx
《Python网络爬虫项目实战教学教案46.docx》由会员分享,可在线阅读,更多相关《Python网络爬虫项目实战教学教案46.docx(49页珍藏版)》请在优知文库上搜索。
1、课题名称项目一初识爬虫计划学时4学时内容分析现阶段,互联网已经成为人们搜寻信息的重要来源,人们习,据关键字查找自己感兴趣的网站,那么搜索引擎是如何找自实,搜索引擎使用了网络爬虫不停地从互联网抓取网站数据在本地,这才能为大众提供信息检索的功能。网络爬虫技术经历了相当长时间的发展,用途也越来越广泛都在使用爬虫之外,其它公司和个人也可以编写爬虫程序获深入地了解通用爬虫和聚焦爬虫,具体包括爬虫的实现原J网页的请求原理惯于从搜索引擎上根回这些网站的呢?其,并将网站镜像保存,除了各大搜索引擎取自己想要的数据。里和相关技术,了解教学目标及基木要求1、了解爬虫产生的背景2、知道什么是爬虫3、了解爬虫的用途4、
2、熟悉不同维度下网络爬虫的几种类型5、掌握通用爬虫和聚焦爬虫的工作原理6、熟悉爬虫抓取网页的流程7、了解通用爬虫的网页分类,8、了解爬虫要遵守的协议,及智能抓取更新网页的文件9、熟悉防爬虫的一些应对策略10、 了解使用Python语言做爬虫的优势11、 掌握基于HTTP协议的请求原理教学重点1、知道什么是爬虫2、熟悉不同维度下网络爬虫的几种类型3、掌握通用爬虫和聚焦爬虫的工作原理4、熟悉爬虫抓取网页的流程5、掌握基于HTTP协议的请求原理6、掌握客户端HTTP请求格式7、掌握服务端HTTP响应格式教学难点1、掌握客户端HTTP请求格式2、掌握服务端HTTP响应格式教学方式教学采用教师课堂讲授为主
3、,使用教学PPT讲解教学过程第一课时(爬虫产生背景,什么是爬虫,爬虫的用途,爬虫的分类)一、创设情境,导入爬虫新概念(I)教师通过提问学生问题,引出网络爬虫技术。教师提问学生问题,例如问题是:大家知道哪些搜索引擎?它们如何找到网站的呢?教师进行总结:搜索引擎使用了网络爬虫不停地从互联网抓取网站数据,并将网站镜像保存在本地,这才能为大众提供信息检索的功能。(2)什么是网络爬虫?网络爬虫,又称为网页蜘蛛、网络机器人,是一种按照一定的规则,自动请求万维网网站并提取网络数据的程序或脚本。(3)明确本节课的学习目标,让学生带着目标去听课。 要求学生知道什么是爬虫 要求学生了解爬虫的用途 要求学生熟悉爬虫
4、的分类二、进行重点知识的讲解(1)教师根据课件,讲述爬虫产生的背景。无论是搜索引擎,还是个人或单位获取目标数据,都需要从公开网站上爬取大量数据,在此需求下,爬虫技术应运而生,并迅速发展成为一门成熟的技术。(2)教师通过举例,讲述网络爬虫具体能够做什么。例如,推销一些理财产品时,利用爬虫从网站中能找到一些目标客户的联系方式;再例如,利用网络爬虫过滤网页上的广告信息;例如,购买商品时利用爬虫统计畅销品牌和性价比等。(3)教师根据课件,总结使用网络爬虫的好处。从互联网中采集信息是一项重要的工作,如果单纯地靠人力进行信息采集,不仅低效繁琐,而且花费成本高。爬虫的出现在一定的程度上代替了手工访问网页,能
5、够实现自动化采集互联网的数据,以更高地效率去利用互联网中的有效信息。(4)教师根据课件,讲解不同维度下爬虫的分类。按照使用场景,可将爬虫分为通用网络爬虫和聚焦网络爬虫;按照爬取形式,可分为累积式和增量式网络爬虫;按照爬取数据的存在方式,可分为表层爬虫和深层爬虫。三、归纳总结,布置作业/随堂练习(1)回顾上课前的学习目标,并对本节课的重要知识点进行总结。教师提问学生本节课需要掌握的知识点,包括什么是爬虫、爬虫的用途,以及爬虫的分类,并对学生的回答进行补充和总结。(2)教师安排学生课上完成章节课后习题,并针对一些难以理解的题目进行讲解。第二课时(通用爬虫工作原理,聚焦爬虫工作原理)一、创设情境,导
6、入通用爬虫的工作原理(1)教师通过提问学生问题,引出通用爬虫。教师提问学生问题,例如问题是:按使用场景爬虫主要有哪儿种?什么是通用爬虫?教师根据学生的回答进行总结:通用网络爬虫是搜索引擎抓取系统的重要组成部分,主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。(2)教师根据课件,讲述通用爬虫的工作原理。通用爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。(3)明确学习目标要求学生理解通用爬虫的工作原理要求学生理解聚焦爬虫的工作原理二、进行重点知识的讲解(1)教师通过提问学生问
7、题,引出通用爬虫的使用场景。教师提问学生问题,例如问题是:大家知道哪些搜索引擎呢?教师根据学生的回答进行总结:搜索引擎是通用爬虫的最重要应用领域,也是大家使用网络功能时的最大助手。(2)教师根据课件,讲述搜索引擎的工作流程。搜索引擎使用通用爬虫来抓取网页,其基本工作流程与其他爬虫类似。在爬取到网页后,将数据存入原始页面数据库,其中的页面数据与用户浏览器得到的HTML是完全一样的;搜索引擎将爬虫抓取回来的页面,进行各种步骤的预处理;提供检索服务,网站排名。(3)什么是聚焦爬虫?聚焦爬虫,又称主题网络爬虫,是指选择性地爬取那些与预先定义好的主题相关的页面的网络爬虫。(4)与通用爬虫相比,聚焦爬虫适
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Python 网络 爬虫 项目 实战 教学 教案 46