《面向隐私保护的用户反馈数据可视化分析及产品推荐实现_kaic.docx》由会员分享,可在线阅读,更多相关《面向隐私保护的用户反馈数据可视化分析及产品推荐实现_kaic.docx(35页珍藏版)》请在优知文库上搜索。
1、面向隐私保护的用户反馈数据可视化分析及产品推荐实现摘要为了解决商家无法正确决策、用户反馈数据可视化、解决推送数据隐私、解决商家隐私保护的问题,本文以京东为例,设计并实现了面向隐私保护的用户反馈数据可视化分析及产品推荐实现的软件系统。该软件系统主要包含了八个模块,各模块介绍如下。登录模块:用户使用用户名和密码哈希后验证登录;数据爬取模块:系统使用爬虫技术爬取数据,考虑隐私,只爬取并存储评论信息;查看模块:系统展示爬取的评论数据;词频销量模块:系统利用自然语言处理技术中的中文分词技术对评论进行分词,将词频和销量数据同态加密并展示;图表展示模块:用户将数据同态解密后进行图表可视化展示;用户管理模块:
2、admin用户管理用户信息、同态密钥、RSA密钥等;身份认证模块:用户利用RSA私钥签名,系统进行身份认证;结果模块:系统展示结果并推荐。系统对评论信息进行爬取,针对评论文本数据进行处理,多角度的展示反馈数据,进而帮助商家更好的决策。推荐系统在提供推荐服务的同时考虑到了用户的隐私安全。基于同态加密的数据加密和公钥加密的身份认证推荐服务使得既保护了用户隐私信息,同时也使得商家能更好的为用户提供服务。关键词:隐私;可视化;同态加密;ABSTRACTInordertosolvetheproblemsofincorrectdecision-making,userfeedbackdatavisualiz
3、ation,pushdataprivacyandprivacyprotection,thispapertakesJD.comasanexample,aprivacyorientedsoftwaresystemfordatavisualizationandproductrecommendationisdesignedandimplemented.Thesoftwaresystemmainlyincludeseightmodules,eachmoduleisintroducedasfollows.Loginmodule:userusesusernameandpasswordhashtoverify
4、login,datacrawlermodule:thesystemusescrawlertechnologytocrawldata,considerprivacy,onlycrawlandstorecomments;Viewmodule:thesystemshowsthecrawlingreviewdata;Wordfrequencysalesmodule:thesystemusesthenaturallanguageprocessingtechnologyofChinesewordsegmentationtechnologytoreviewthewordfrequencyandsalesda
5、tahomomorphicencryptionanddisplay;Chartdisplaymodule:theuserdecryptsthedatahomomorphicchartvisualizationdisplay;usermanagementmodule:Adminusermanagementuserinformation,homomorphickey,RSAkey,etcAuthenticationModule:usersuseRSAprivatekeysignature,thesystemforauthentication;ResultsModule:thesystemdispl
6、ayresultsandrecommendations.Thesystemcrawlsthereviewinformation,processesthereviewtextdata,displaysthefeedbackdatafromvariousangles,andhelpsthemerchantstomakebetterdecisions.TheRecommenderSystemconsiderstheprivacyandsecurityoftheuserwhileprovidingtherecommenderservice.Theauthenticationrecommendation
7、servicebasedonhomomorphicencryptionandpublickeyencryptioncannotonlyprotecttheprivateinformationofusers,butalsomakethemerchantsprovidebetterservicesforusers.Keywords:Privacy;Visualization;Homomorphicencryption目录摘要IABSTRACTII第1章绪论11.1 课题来源11.2 课题背景11.3 国内外在该方向的研究现状及分析21.3.1 产品推荐的发展现状及应用前景21.3.2 隐私保护的发
8、展现状及应用前景21.4 本文结构安排3第2章相关理论和技术42.1 PySide242.2 爬虫技术42.3 分词技术52.4 MySQL62.5 同态加密技术62.5.1 全同态加密(FHE)72.5.2 半同态加密(PHE)7第3章系统设计93.1 开发环境93.2 系统功能结构93.3 系统功能设计103.3.1 数据爬取功能设计103.3.2 数据查看功能设计113.3.3 词频销量展示功能设计123.3.4 图表展示功能设计123.3.5 结果展示功能设计133.3.6 用户管理功能设计133.3.7 身份认证功能设计143.4 数据库设计与实施15第4章系统实现184.1 登录功
9、能184.2 数据爬取功能194.2.1 爬取准备194.2.2 爬取中隐私保护194.3 数据查看功能204.4 词频销量、图表与结果展示功能214.4.1 中文分词处理214.4.2 同态加密与结果推荐214.4.3 可视化处理224.5 用户管理功能234.5.1 同态密钥生成244.5.2 RSA密钥生成244.6 身份认证功能254.6.1 获取密钥254.6.2 身份验签26结论27参考文献28致谢29第IV页第1章绪论随着互联网电商产业的发展,越来越多的用户习惯于进行线上购物,这大大的方便了人们的生活,这也使得用户相应的产生了大量的评论数据和购买信息。本课题对于评论信息进行爬取,
10、分析评论数据,对文本数据进行处理,使得可以多角度的展示和分析反馈数据,进而帮助商家更好的决策。推荐系统在提供的推荐服务的同时还考虑到了用户的隐私安全。基于同态加密的数据加密和公钥加密的身份认证推荐服务使得既保证了用户隐私信息不受危害,同时也使得商家能更好的为用户提供服务。1.1 课题来源自主选题。1.2 课题背景近些年来随着互联网技术的快速发展,各种各样的网络服务不断融入人们的生活之中,这极大的便利的人们的生产生活,网购就是其产物之一。根据第48次中国互联网发展状况统计报告从1997年11月开始,截止到2021年6月,我国网民规模达到了空前的10.11亿,网络购物用户量增长到8.12亿,相较于
11、2020年12月增长了2965万,占据网民整体数量的80.3%。面对如此庞大的网络购物人群,势必会产生大量的购物数据。然而,当商家面临着如此大量的过载数据时却更多的是不知所措,不能充分利用这些数据进行判别,并给自己的商店产品进行更新,对于用户的倾向和负面评论情况亦不能做出及时的响应,最终给自己带来的是不必要的潜在损失。当然对于处理好的信息要返回给商家,由于同时设计到商家和用户,如果只是为了完成相应的功能却不考虑到其隐私的话,那么势必会到导致用户隐私泄露给用户的生活造成一些困扰,就会造成不必要的麻烦。同时,当信息返回商家时会涉及到很多商家的个人隐私信息,这时候不做处理的话就会导致商家隐私泄露。通
12、过本系统的研发,可以有效的解决商家面对大量的过载数据时,能帮助自己更好的做出选择,也能更好的保护个人隐私。1.3 国内外在该方向的研究现状及分析1.3.1 产品推荐的发展现状及应用前景目前而言众多的有关产品推荐的研究已经有了广泛的使用,而且这些研究用到了很多相关的前沿技术,如协同过滤算法(COIIabOratiVeFiItering,CF),但更多的是处理用户端的,处理为用户在面对过载信息时如何去选择适合自己的产品,如浙江工商大学郭飞鹏的有关面对隐私保护关注问题的移动个性化方面的研究,西安电子科技大学徐坤有关移动应用推荐系统的隐私保护反而的研究等都是如此,但面对于商家决策的却很少,虽然电子商务
13、网站上也有简单的有关用户反馈数据的展示,比如好评率,差评、中评等,但相对来说都并不是很直观,在京东购物网站上一次性可以获取一千条数据,很多潜在的情感评论词却并不是一眼就能看出来的,这就会导致这些数据很多时候并不能充分发挥其作用。基于以上情形,所以本文提供了一个使得更加直观明显的方案,可以使得商家在读入数据之后可以更加直观的看出问题所在,对于自己的产品是否真是有不足也能进行进一步的改进,更好的满足用户需求,也尽可能大的获取收益。1.3.2 隐私保护的发展现状及应用前景隐私简言之就是指公民在个人的生活中,人们对于自己的不愿公开让他人知道的事情,且该秘密是与其他人和社会的利益无关。由于为了能够使得数
14、据分析显示得到相应的效果,就不得不在平台上获取相应的数据,那这个时候就可能会涉及到泄露隐私的问题了。对于系统,当系统提供服务时势必会对信息进行搜集,那么这个过程中对于用户隐私信息会造成泄露,居心不良的用户面对众多信息时非法窥探,或者系统受到外部攻击等。目前对于隐私保护方案众多,其中有将信息转化后形成密文数据,这也是最容易想象到的方案,信息加密后变得不可读,能一定程度的保护隐私安全。另外也有西安电子科技大学郑文斌对于差分隐私安全方面的研究,采用了一种差分隐私的架构,用以实现保护用户隐私数据的安全,以及上文提到的徐坤移动应用推荐系统方面的有关隐私报的研究中采用了半同态加密的方法实现能够应用到云中敏
15、感数据的保护。基于同态加密技术的数据处理使得数据结果具有一致性来保证计算过程的安全性。由于同态加密具有计算、通信复杂性大,安全性较强的特点,使得其在隐私安全保护方面具有广泛的应用。1.4 本文结构安排本文的组织结构具体安排如下:第1章绪论部分主要介绍了该系统的课题背景,以及产品推荐、隐私保护的国内外有关课题的研究情况,最后是本文的组织结构的安排。第2章主要介绍了相关的知识理论技术,包括评论文本的获取以及评论数据的处理以及图像展示技术,另外是同态加密技术的相关介绍。第3章系统的设计,分别介绍各个模块以及数据库的设计,通过Qt设计师分别设计主界面,数据查看,数据爬取,数据处理,图像展示,用户管理,身份认证等界面,采用MySQL数据库设计数据库并用Navicat进行操作管理。第4章系统的实现,分别展示了各个模块的功能实现,对Qt设计师设计出来的界面用pycharm编译器使用python语言进行相应的代码编写,实现各个界面模块的功能。最后,对本文主要工作进行总结,指出不足。第2章相关理论和技术面向隐私保护的用户反馈数据可视化分析及产品推荐系统,从获取数据到数据处理并展示数据,最后进行加密处理并展示,采用了很多项理论技术。这里将对PySide2、爬虫技术、分词技术、MySQL以及同态加密技术的背景、原理、相关使用进行相应的说明,旨