大数据技术及应用——基于Python语言 思考题参考答案 严宣辉 第1--4章 初识大数据---大数据存储.docx
《大数据技术及应用——基于Python语言 思考题参考答案 严宣辉 第1--4章 初识大数据---大数据存储.docx》由会员分享,可在线阅读,更多相关《大数据技术及应用——基于Python语言 思考题参考答案 严宣辉 第1--4章 初识大数据---大数据存储.docx(13页珍藏版)》请在优知文库上搜索。
1、第一章初识大数据1 .什么是大数据?大数据的定义是什么?H前业界对大数据还没有一个统一的定义。常见的研究机构施于不同的角度给出如下定义。(1)大数据是指大小超出常规的数据库工具获取、存储、管理和分析能力的数据集(并不是说一定要超过特定TB级的数据桀才算大数据)。麦肯锡(2)大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集。维基百科(3)大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化力的海量、高增长率和多样化的信息资产。Gartner(4)数据量大、获取速度快或形态多样的数据,难以用传统关系里数据分析方法进行有效分析,或者需要大规模的水平扩屣才能高效
2、处理。一一美国国际标准技术研究院(NIST)(5)大数据般会涉及两种或两种以上的数据形式,它需要收集超过100TB(1TB-240B)的数据,并且是高速实时潦数据:或者从小数据开始,但数据每年增长速率至少为60%。一一国际数据公司(1)总的来说.大数据是指所涉及的数据规模巨大到无法通过人工或计算机,在可容忍的时间下使用常规软件工具完成存储、管理和处理任务,并解择成人们所能解读的形式的信息。2 .大数据技术包括事几方面的内容?请简要回答.大数据技术可归纳为:大数据采集、大数据预处理、大数据存储、大数据计算:、大数据挖掘、大数据安全和大数据可视化。3 .请举一个大数据在生活中应用的例子,并简要回答
3、大数据技术是如何应用的。拥堵监测。通过分析数据,可以实时获得用户的连贯位置信息。通过对信息长时间的统计,分析常驻用户和人车合并条件,挖掘道路中真正运行的用户。经过道路匹配、用户匹配、车向判断,车速计算、交通信息提取、道路交通状态判断等步骤,判断道路是否拥堵。在这个例子中,大数据技术是这样应用的:(1)大数据采集:通过采集用户的连贯位置信息,获取道路上的交通状况数据。(2)大数据预处理:对采集到的数据进行清洗和去重,问时对数据进行格式化处理和规范化处理。(3)大数据存储:将预处理后的数据存储到大数据存储系统中,例如HadOop、CaSSandra等,以便进行后续处理和分析。(4)大数据计算:通过
4、大数据计算技术,例如MaPRedUce、SPark等,对存储在大数据存储系统中的数据进行处理和分析,例如道路I兀配、用户匹配、车向判断、车速计算、交通信息提取等操作。(5)大数据挖掘:利用大数据挖掘技术,例如数据聚类、关联规则挖掘等,对处理后的数据进行挖掘和分析,以提取有价值的交通信息。(6)大数据可视化:将挖掘出的交通信息进行可视化展示,例如通过地图显示交通拥堵情况等,以便用户和交通管理部门实时了解交通状况。(7)大数据安全:对采臾到的用户位置信息和交通信息进行加密和安全处理,以确保用户数据的隐私和安全。4 .试述大数据的基本特征。大数据具有巨量性(Vo1.ume).多样性(Variety)
5、、高速性(Ve1.ocity),准确性(VerUCiIy)、高价值和低价值密度(Va1.ue)的特征。具体的:(1)Vo1.ume(巨显性):数据量巨大。这是大数据的显著特征,数据集合的规模不断扩大,已从GB级到TB级再到PB级,甚至已经到了EB级和ZB级。(2) Variety(多样性):数据类型更杂多样。以往产生或者处理的数据类型较为单,大部分是结构化数据,如传统文本类和数据库数据.如今,数据类型不仅包括结构化数据,还包括大量半结构化或者非结构化数据,如XM1.,邮件、博客、即时消息。此外,企业需要整合分析来自豆杂的传统和非传统信息源的数据,包括企业内部和外部的数据。(3) Ve1.oci
6、ty(高速性):数据具有高速性。数据产生、处理和分析的速度持续提高,数据流量大.速度提高的原因是数据创建的实时性及需要将流数据结合到业务流程和决策过程中。(4) Veracity(准确性):数据具有准确性。该特征体现了大数据的数据质量。较为典型的应用是网络垃圾邮件,它们给社交网络带来了严重的困扰。据统计,网络垃圾占万维网所有内容的20%以上。(5) Va1.ue(高价值,低价值密度):数据具有潜在价值。大数据由于数据量不断增大,堆位数据的价值密度不断降低,而数据的整体价值不断提高。有人甚至将大数据等同于黄金和石油,表示大数据中蕴含了无限的商业价值。5 .大数据处理的数据类型有哪些?大数据处理的
7、数据类型包括结构化数据、半结构化数据和非结构化数据。这些类型的数据都可以被大数据技术处理。其中,结构化数据是指数据库,也称作行数据,是由二维表形式来逻辑表达和实现的数据“半结构化数据具有一定的结构性,且和具有严格理论模型的关系型数据库的数据相比更灵活。非结构化数据是与结构化数据相对的,它不适合用二维表形式表示,包括所有格式的办公文档、图片和音频、视频信息等。6 .商要回答大数据的出现为人们生活带来了哪些通要改变.大数据的出现为人们生活带来了许多重要改变.例如,大数据能够支持政务活动,如奥巴马竞选中的民意预测采用大数据存储和分析选民资料、筹集资金、投放广告等:然后,大数据可以提高社会服务能力,如
8、洛杉矶的智能交通ATSAC.采用感应器收集车速、流域等信息,进行实时处理。此外,大数据可以提高商业决策水平。例如,USXPreSS的物流运输使用大数据分析车辆状况,对车辆人员进行合理调度。总之,大数据的出现为人们生活带来了许多重要改变。它能够支持政务活动,提而社会服务能力,并提高商业决策水平这些只是大数据改变我们生活的几个例子。7 .大IM8、云计算和物联网三者之间有什么联系?又有哪些不同?大数据、云计算和物联网:者之间有着紧密的联系“物联网通过连接各种设备和传感器,产生了大量的数据。这些数据需要存储和分析,而云计兑提供了一个可扩展、弗性和经济高效的方式来存储和处理这些数据。大数据技术则用于分
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大数据技术及应用基于Python语言 思考题参考答案 严宣辉 第1-4章 初识大数据-大数据存储 数据 技术 应用 基于 Python 语言 思考题 参考答案 初识 存储
链接地址:https://www.yzwku.com/doc/1499384.html