基于Hadoop的旅游景点可视化系统.docx
本科毕业论文论文题目:基于HadooP的旅游景点可视化系统随着我国经济不断发展,旅游业也进入到了蓬勃发展的时期,旅游在现代社会已经逐渐成为人们生活中不可或缺的组成部分。与此同时,陨着互联网技术的发展,越来越多的人开始使用网络寻找并选择度假和旅游方案.在这个过程中,选择合适的旅游景点和酒店住宿是至关至要的一步。那么面对网上种类繁多的、令人眼花缭乱旅游数据,使旅游者感受到了极大的不便,而数据可视化可以让他们清楚直观的了解相关旅游信息,从而为出行做好规划。因此,建立个旅游景点可视化系统,对于提高旅游的便利性有非常重要的作用。本系统为用户提供了一个旅游景点可视化平台,在该系统中,用户不仅可以查看旅游珏点的城市分布、人流量、珏点等级和景点评分等信息,还可以查看酒店不同类型房间和入住人员类型等.本系统首先利用Python爬虫技术,从旅行网站找取旅游景点相关信息。然后利用HadOOPHDFS对旅游景点数据进行存储,接着基于Python语言,编写代码利用分布式大数据计算框架Spark对HDFS的数据进行预处理,对数据进行去重、过滤等将半结构化数据处理为结构化数据,写入HDFS中,建立宽表。并将分析后的维度表保存至MySQ1.数据库中,最后通过F1.aSk+ECharis+Vue搭建可视化界面,展示数据可视化结果。系统的主要流程由第一步数据采集、第二步数据处理、第三步数据分析和最后的数据可视化这4个模块组成。综上所述,本旅游景点可视化系统能够提供可视化展示和用户交互的功能,基于可视化展示大量的旅游数据,可以让用户更好地广解各个景点和酒店相关信息,从而更好地进行旅游规划和选择。关询:旅游景点:数据分析:数据可视化:Hadoop:Spark论文类型;软件工程AbstractWiththecontinuousdeve1.opmentofChina'seconomy,tourismhasa1.soenteredapcri<x1.ofvigorousdeve1.opment,andtourismhasgradua1.1.ybecomeanindispensab1.epariofpeop1.e's1.ivesinmodernSOCieIy.Atthesametime,withthedeve1.opmentofInternettechno1.ogy,moreandmorepeop1.earestartingtousetheInternettofindandchoosevacationandtrave1.options.Choosingtherighttouristattractionsandhote1.accommodationisacrucia1.stepinthisprocess.T1.ieninthefaceofawidevarietyOfdazz1.ingtourismdataontheInteniet,touristsIee1.greatinconvenience,anddatavisua1.izationcana1.1.owthemtoc1.ear1.yandintuitive1.yunderstandthere1.evanttrave1.information,soastop1.anfortrave1.,I1.ierefore.estab1.ishingatouristattractionvisua1.izationsystemp1.aysaver),importantro1.einimprovingtheconvenienceoftourism.Thissystemprovidesuserswithavisua1.p1.atformfortouristattractions,inwhichuserscannoton1.yviewthecitydistribution,foo1.f1.ow,attraction1.eve1.andattractionratingoftouristattractions,buta1.soviewdifferenttypesofroomsandoccupantsinthehote1.I1.iissystemfirstusesPythoncraw1.ertechno1.ogytoobtaininformationabouttouristattractionsfromtrave1.websites.ITienuseHadoopHDFStostoretouristattractiondata,andthenwritecodebasedonPython1.anguage,usethedistributedbigdatacomputingframeworkSparktopreprocessHDFSdata,dedup1.icateandfi1.terthedata,processsemi-structureddataintostructureddata,writeittoHDFS,andestab1.ishwidetab1.es.I1.ieana1.yzeddimensiontab1.eissavedintheMySQ1.database,andfina1.1.yavisua1.interfaceisbui1.tthroughF1.ask+ECharts+Vuctodisp1.aythedatavisua1.izationresu1.ts.Themainprocessofthesystemconsistsoffourmodu1.es:thefirststepofdataco1.1.ection,thesecondstepofdataprocessing,thethirdstepofdataana1.ysisandthefina1.datavisua1.ization.Insummary,thistouristattractionvisua1.izationsystemcanprovidevisua1.disp1.ayanduserinteractionfunctions,basedonthevisua1.disp1.ayofa1.argeamountoftourismdata,cana1.1.owuserstobetterunderstandthere1.evantinformationofvariousattractionsandhote1.s,soastobetterCarryouttourismp1.anningandse1.ection.KeyWordstTourismAttraction;DataAna1.ysis:DataVisua1.ization;Hadoop;SparkDissertationType:SoftwareEngineering摘要IAbstractI1.目录IIII绪论11.1 课题研究背景I1.2 研究内容和研究意义11.3 论文的结构12相关理论和技术22.1 PythOn爬虫技术22.2 HadOoP22.3 分布式计算框架SPark22.4 后端FIaSk框架22.5 前端Vue框架22.6 Echarts图表库33系统需求与设计43.1 需求分析43.1.1 数据采集与处理43.1.2 数拉;分析与可视化43.1.3 用户管理43.1.4 用户交互体验43.2 系统设计.3.2.1 系统架构3.2.2 功能模块设计:4系统实现74.1 数据采集74.2 数据存储与处理.74.3 数据分析84.3.1 部分旅游景点数据分析84.3.2 部分酒店相关数据分析104.4 数据可视化展示104.4.1 登录注册模块114.4.2 旅游景点可视化展示114.4.3 酒店信息可视化展示165总结与展望195总结195.2展里19参考文献20致谢211绪论1.1 课题研究背景出行旅游作为人们的主要休闲方式和社会经济活动已经得到广泛发展。旅游业不仅可以推动多个产业的发展,调节产业结构,还可以满足人们日益增长的文化需要,已成为国民经济的重要支柱°.然而,随着无序化旅游数据的海量激增,针对这些有效旅游数据进行合理分析是制定与旅游发展相关的规划、旅游设施分配和资源调度等方面合理安排的有效手段,从而最大化发挥旅游信息的价值°。因此,旅游经济的发展与对数据的合理分析密不可分。近年来,大数据技术的兴起和发展,为对旅游市场进行深入挖掘和分析提供f新的思路和方法。HadOOP是当今最流行的大数据平台之一,可以处理和分析海量的非结构化数据,并实现数据的高效存储、处理和管理。1-2研究内容和研究意义近年来,随着旅游市场竞争的加剧,大数据分析对旅游业显得至关重要。由于互联网的存在,游客可以获得有关景点、服务和旅游行程更丰富、更全面和更有用的信息。该系统可以收集、处理、分析和可视化展示旅游景点和酒店相关数据,帮助游客更好地搜索和选择旅游目的地、景点和酒店,并为旅游企业提供更好的经营和服务理念。同时,该系统的研尢对于推动旅游业的数字化转型和信息化普及有着积极的作用。本项目旨在基于HadOOP构建个旅游景点可视化系统,实现对旅游景点的数据采集、存储,处理、分析和可视化,让大众f解旅游景点和酒店等,为旅游者出行提供有力的参考价值。因此搭建一个简洁有效的可视化系统是非常有意义的。1.3 论文的结构章节安排如下:第一章:绪论。主要介绍本文的课题研究背景、研究内容和研窕意义以及论文的结构。第二章:相关理论和技术.介绍本文所用到的相关技术和理论,包括Py1.hon爬虫技术、Hadoop,分布式计兑框架SPark、后端FIaSk框架、前端VUC框架以及EChartS图表库。第三章:系统需求与分析。主要介绍需求分析和系统设计两方面。第四章:系统实现1介绍系统的具体实现方法和步骤,包括数据采集模块、数据存储模块、数据分析模块和数据可视化展示模块。第五章:结论。对本系统研究内容和可视化结果进行总结,并提出未来的改进方向。2相关理论和技术2. 1PythOn爬虫技术PyIhon爬虫技术是利用Pyihon语言开发的网络爬虫程序,可以通过白动化地访问互联网资源,快速抓取所需信息并进行处理。Py1.hOn语言作为一种简单、高效、易于学习的编程语言,已成为爬虫程序开发的主流语言。常见的Python爬虫技术有正则表达式、XPaih等,它们可根据需求和爬取网站的特性进行选择。为避免触发反爬虫机制,爬虫程序使用伪装登录状态的技术,并降低页面访问菽率以保持不规律性。数据存储包括MySQ1.、MongoDB、NoSQ1.,Ra1.is,HadOoP等,爬取的数据类型主要为HTM1.或JSoN字符串。3. 2HadoopHadOOP是一个可靠的分布式共享存:储系统,HadOOP的核心是分布式文件系统HDFS,分布式运算编程框架MaPRCdUce、分布式资源调度Yam。HDFS用于海量数据的存储:MapReduce用于数据分析和处理,Yarn用于.解决资源任务调度问甥.3.1 分布式计算框架SPark在计算过程中,HadOoPMaPRedUCe从磁盘读取数据,运行进程,将结果写入窿盘.然后从磁盘读取更新后的数据,再次运行进程,最后将结果保存到磁盘°。饿盘的读写处理影响数据分析的速度。而SPark从磁盘读取数据,将中间数据放入内存,进行必要的分析处理,并将结果写回集群。Spark的计算方式比基于磁盘的计算方式要快。因此Spark底层的RDD使其成为主流的大数据分析框架,因为它可以让程序员学习成本更低,更加快速的迭代开发,从而成为现在主流的大数据分析框架。3.2 后端FIaSk