2024自然语言处理的隐私政策自动表述研究.docx
《2024自然语言处理的隐私政策自动表述研究.docx》由会员分享,可在线阅读,更多相关《2024自然语言处理的隐私政策自动表述研究.docx(22页珍藏版)》请在优知文库上搜索。
1、自然语言处理的隐私政策自动表述研究目录序言V1简介12工作流程32.1 数据集42.2 数据标注52.3 模型训练73在线检测工具113.1 隐私政策自动表述工具113.2 隐私政策图形化表示124实验结果134.1 虚假隐私政策检测134.2 隐私政策完整性检测134.3 隐私政策的内容分布和完整性评分145总结17参考文献19A附录21隐私政策的自动化表述是隐私政策自动化检测的基础,表述结果可用于虚假隐私政策检测、隐私政策完整性检测等方面。本文针对中文语言的特点,采用众包任务的方式对隐私政策进行标注,创建了目前为止笫一个中文隐私条款训练集。使用自然语言处理技术实现了隐私政策的自动化表述工具
2、,工具的分类模型准确率达到90%。使用该工具,我们对来自华为应用市场的1,500份中文隐私政策进行了检测,检测结果表明38.5%的隐私政策为虚假隐私政策,剩余合法的隐私政策中,92.5%的隐私政策在完整性方面不符合自评估指南的要求。在隐私政策自动表述的基础上,设计了一种隐私政策打分方法,实验结果表明大部分隐私政策的得分位于低分数区间内。Chapter 1简介移动应用快速发展的同时,带来了一些安全问题。移动设备做为隐私集中地,需要确保其承载的隐私信息不被移动应用滥用。为保护用户隐私,欧盟出台了GeneralDataProtectionRegulation14(以下简称GDPR),落实了数据控制者
3、(APP运营者)处理数据主体(用户)信息的规则和数据主体应当享有的权利等规定。GDPR第29条工作组还特别强调,数据控制者的应用程序应该以分层的隐私声明或通知的方式向数据主体提供隐私信息(即隐私政策)相关的链接,而不是在设备上以单一通知的形式展示此类信息。国内也对隐私问题制定了一系列的技术规范和标准。包括:App违法违规收集使用个人信息自评估指南(以下简称自评估指南)、GB/T35273信息安全技术个人信息安全规范(以下简称“安全规范)和信息安全技术移动互联网应用程序(App)收集个人信息基本规范(以下简称“基本规范),从隐私政策文本、收集使用个人信息行为、用户权利保障等角度对隐私政策进行了规
4、范。欧盟的GDPR,国内的技术规范和标准都对隐私政策都提出了相关要求。隐私政策的目的是为了向用户说明个人信息如何被收集、使用和共享等数据实践,同时也对厂商起到约束作用,隐私政策通常可以通过链接访问的方式查看。根据MCDOnaki等人7的估计,如果认真阅读每一份隐私政策,那么身在美国的用户每年需要为此花费201个小时。我们的统计也表明,中文隐私政策平均包含138句话,用户也需要为阅读一份隐私政策花费大量的时间。隐私政策过长的篇幅、专业的内容等现实原因导致许多用户不愿意去阅读或无法直观的理解隐私政策的内容,在对内容不了解的情况下,大多直接选择接受应用的隐私政策,在这种情况下,用户对于个人信息的处理
5、并不知情。如应用ZAo在其隐私政策中声明的:在您上传谶发布用户内容以前,您同意或者确保实际权利人同意授予ZAC)及其关联公司以及ZAo用户全球范围内完全免费、不可撤销、永久、可转授权和可再许可的权利被大多数用户忽略。针对这种现状,现有的法规/标准都对隐私政策提出了清晰易懂的要求,也有相关工作试图标准化隐私政策10,3,5,16。另外还有一些隐私政策自动化表述的研究工作来解决用户阅读隐私政策困难的问题。如针对英文,PO1.ISIS等工具使用众包任务对数据进行标注、使用自然语言处理技术自动从隐私政策中提取数据实践内容15,4;C1.AUDETTE2使用了机器学习方法来自动检测不公平条款。本文研究中
6、文隐私政策的自动表述,用于定位一份隐私政策中的相关内容,在此基础上,检测虚假隐私政策,检测隐私政策的完整性。基于自动化表述的结果,我们设计了一种评分方法为隐私政策打分。Chapter 2工作流程为了实现隐私政策的自动化表述,使用众包任务方式对数据进行标注,使用自然语言处理技术识别隐私政策中的相关条款。在模型建立阶段,采用众包任务方式,根据逐步优化的分类标准标注隐私政策以建立训练数据集,然后使用数据集训练分类模型,在对朴素贝叶斯、支持向量机、卷积神经网络三种分类方法比较的基础上,最终使用支持向量机对数据集进行分类;在线检测阶段中,通过分类模型对隐私政策内容进行分类,根据分类结果对隐私政策内容进行
7、分析。具体的工作流程如图21所示。Figure2.1:隐私政策自动表述流程2.1数据集隐私政策可以通过多种渠道采集,如搜索引擎、应用市场等。应用市场为开发者分发应用时,为开发者提供设置隐私政策链接的接口。用户在通过应用市场浏览应用时,可以通过该链接查看开发者设置的隐私政策,如图2.2所示。相比其他渠道的隐私政策,应用市场的隐私政策与移动应用紧密相关,因此质量较高。因为这些隐私政策属于公开信息,所以我们设计了针对移动应用市场的爬虫来获取这些隐私政策。具体来讲,本研究中的数据集为来源于华为应用市场的隐私政策。无服务第卜。Bt84XHftK6S应用详情Q介的评论51387)推券58RIWHannSW
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2024 自然语言 处理 隐私 政策 自动 表述 研究