基于Python的网络爬虫设计与实现.docx
《基于Python的网络爬虫设计与实现.docx》由会员分享,可在线阅读,更多相关《基于Python的网络爬虫设计与实现.docx(44页珍藏版)》请在优知文库上搜索。
1、基于Python的网络爬虫设计与实现摘要:从互联网时代开始,网络搜索引擎就变得越发重要。大数据时代,一般的网络搜索引擎不能满足用户的具体需求,人们更加注重特定信息的搜索效率,网络爬虫技术应运而生。本设计先对指定URL的网址相关网页进行分析,找出网页内目标信息所在的URL信息规律;然后选择BeautifulSoup模块或IXml的html模块编写函数分级爬取这些URL;最后将URL对应的网页中的信息归类保存到文本文件中。然后利用jieba模块基于TRIDF指标对爬取的文本中的信息进行分析,再找出词频高的词,做进一步分析。基于Python实现网络爬虫程序,先对我校近几年新闻网页进行分析,找出新闻中
2、的高频词,并绘制词云图;然后针对这次新型冠状病毒所造成的疫情,从腾讯新闻网中爬取疫情相关信息、,同时根据相关信息绘制疫情分布图。两个爬虫实例表明本设计的可行性和有效性。关键词:网络爬虫,互联网,校园,疫情DesignandimplementationofwebcrawlerbasedonPythonAbstract:SincetheInternetera,Internetsearchengineshavebecomemoreandmoreessential.Inperiodofbigdata,commonnetworksearchenginescannotsatisfytheexactneed
3、sofusers,Peopleattachimportancetothesearchefficiencyofspecificinformation,andwebcrawlertechnologyemergeasthetimesrequire.ThisdesignfirstanalyzestheURLrelatedwebpagesofthespecifiedURLtofindouttheURLinformationruleofthetargetinformationinthewebpage;thenselectthebeautifulsoupmoduleortheHTMLmoduleofIxml
4、towritethefunctiontocrawltheseURLshierarchically;finally,theinformationinthewebpagescorrespondingtotheURLisclassifiedandsavedinthetextfile.ThenusethejeebamoduletoanalyzetheinformationinthecrawledtextbasedonTFIDFindex,andthenfindoutthewordswithhighwordfrequencyforfurtheranalysis.BasedonPython,novelco
5、ronavirusisfirstanalyzed.Wefindoutthehighfrequencywordsinthenewsanddrawthewordcloudmap.Then,inresponsetotheepidemicsituationcausedbynovelcoronavirus,thisdesigncrawledtheepidemicsituationrelatedinformationfromTencentNewsNetworkanddrewtheepidemicsituationdistributionmapaccordingtotherelatedinformation
6、.Twocrawlerexamplesshowthefeasibilityandeffectivenessofthedesign.Keywords:Crawler,Intemet,campus,epidemicsituation目录第1章绪论11.1 研究背景和实际意义11.2 研究现状11.3 研究方法和内容21.3.1 研究方法21.3.2 研究内容2第2章基于PythOn的网络爬虫技术的相关方法32.1 网页分类32.1.1 静态网页32.1.2 动态网页32.2 正则表达式32.3 中文分词42.4 词云图生成52.5 数据管理62.6 BeautifulSoup6第3章基于PythO
7、n的校园网新闻信息获取与分析73.1 基于Python的校园网新闻信息爬虫实现73.1.1 网页信息获取103.1.2 版块新闻链接列表搜索113.1.3 版块新闻网页新闻内容获取133.2 基于Python的校园网新闻信息分析实现143.2.1 新闻信息数据管理143.2.2 新闻内容文本分词163.2.3 停用词删除173.2.4 高频词词云制作183.2.5 新闻内容词语分析19第4章基于Python的新型冠状病毒疫情爬虫实现204.1 每日疫情数据获取及曲线图绘制214.1.1 每日疫情数据爬取程序现实214.1.2 每日疫情数据曲线图绘制程序现实234.2 各地疫情数据获取及曲线图绘
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Python 网络 爬虫 设计 实现
