大大数据分析报告结课论文设计.docx
《大大数据分析报告结课论文设计.docx》由会员分享,可在线阅读,更多相关《大大数据分析报告结课论文设计.docx(14页珍藏版)》请在优知文库上搜索。
1、Forpersona1.useon1.yinstudyandresearch;notforcommercia1.use大数据论文摘要数据发展到今天,已不再是一个新的概念,基于大数据技术的应用也层出不穷,但作为一项发展前景广阔的技术,其很多作用还有待挖掘,比如为人们的生活带来方便,为企业带来更多利益等.现今,互联网上每日产生的数据已由曾经的TB级发展到了今天的PB级、EB级甚至ZB级.如此爆炸性的数据怎样去使用它,又怎样使它拥有不可估量的价值呢?这就需要不断去研究开发,让每天的数据砂砾变为黄金.那么如何才能将大量的数据存储起来,并加以分析利用呢,大数据技术应运而生。大数据是指无法在可承受的时间围
2、用常规软件工具迸行捕捉、管理和处理的数据集合.大数据的战略意义不在于掌握庞大的数据信息,而在于对这些含有.意义的数据进行专业化的处理.本文就大数据技术进行了深入探讨,从大数据的定义、特征以及目前的应用情况引入,简述了大数据分析的统计方法、挖掘方法、神经网络方法和基于深度学习框架的方法,并对大数据分析流程和根架、大数据存储模式和服务机制、大数据分析中的多源数据融合技术、高维数据的降维技术、子空间分析、集成分析的处理方法等做了概述.最后,以网络信息安全为例,阐述了该领域的大数据分析过程和方法。关罐词大数据;雌挖掘;深度学习;大数据分析;网络信息安全一、大数据概述1.1 大数据的定义和特征目前,虽然
3、大数据的更要性得到了大家的一致认同,但是关于大数据的定义却众说纷纭.大数据是f抽象的概念,除去数据量庞大,大数据还有一些其他的特征,这些特征决定了大数据与“海H数据和“非常大的数据.这些概念之间的不同.一般意义上,大数据是指无法在有限时间用传统技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合.科技企业、研究学者、数据分析师和技术顾问们,由于各自的关注点不同,对于大数据有着不同的定义.通过以下定义,或许可以帮助期口更好地理解大数据在社会、经济和技术等方而的深刻涵。2010年ApacheHadoop组织将大数据定义为,”普通的计算机软件无法在可接受的时间围捕捉、管理、处理的规模庞大的
4、数据集.在此定义的基础上,2011年5月,全球著名咨询机构麦肯锡公司发布了名为“大数据:下一个创新、竞争和生产力的前沿的报告,在报告中对大数据的定义进行了扩充。大数据是指其大小超出了典型数据库软件的采集、存储、管理和分析等能力的数据集.该定义有两方而涵:(1)符合大数据标准的数据集大小是变化的,会隐着时间推移、技术进步而增长;(2)不同部门符合大数据标准的数据集大小会存在差别.目前,大数据的一股围是从几个TB到数个PB(数千TB)2,根据麦肯锡的定义可以看出,数据集的大小并不是大数据的唯一标准,数据规模不断增长,以及无法依鸵传统的数据库技术进行管理,也是大数据的两个重要特征.大数据价值链可分为
5、4个阶段:数据生成、数据采集、数据储存以及数据分析。数据分析是大数据价值链的最后也是隈重要的阶段,是大数据价值的实现,是大数据应用的基础,其目的在于提取有用的值,提供论断建议或支持决策,通过对不同领域数据集的分析可能会产生不同级别的潜在价值.在日新月异的IT业界,各个企业对大数据都有着自己不同的解读.大数据的主要特征5个,即5V特征:VOIUme(容f大)、Variety(种类多)、Ve1.oCity(速度快)、难辨识(Veraeity)和最市要的Va1.Ue(价值密度低).VoiUme(容量大)是指大数据巨大的数据量与数据完整性.可指大数据集合中包含的数据多,也可指组成大数据的网络包含的子您
6、个数多.Variety(种类多)意味着要在海量、种类繁多的数据间发现其在关联.大数据中包含的各种数据类型很多,既可包含各种结构化数据类型,又可包含各种非结构化数据类型,乃至其他雌类型。Ve1.oCity(速度快)可以理解为更快地满足实时性需求.大班的结趣口容等都可动态变化,而且变怫率高、速度快、围广,数据形态具有极大的动态性,处理需要极快的实时性.Veradty(难辨识)可以体现在数据的容.结构、处理、以及所含子数据间的关联等多方面.大数据中可以包含众多具有不同概率分布的随机数和众多具有不同定义域的模糊数.数间关联模糊不清、并且可能随时随机变化.Va1.Ue(价值密度低)是指大数据的价值密度低
7、,大数据中,往往有用:数据混在一起,因此大数据处理的一项必要工作就是不断地清垃圾、除噪声”.大数据时代数据的价值就像沙里淘金,数据量越大里面真正有价值的东西就越少.大数据除了以上介绍的四个主要特征外,还具有纬度高,多源性,不确定性、社会性等特征.1.2 大数据应用情况大数据的类型大致可分为三类:(1)传统企业数据(TraditiOnaIenterpriSedata):包括CRMsystems的消费者数据,传统的ERP数据,库存数据以及账目数据等.(2)机器和传感器数抠(Machine-generated/sensordata):包括呼叫记录(Ca1.1.Detai1.Records),智能仪表
8、,工业设备1专感器,设备日志(通常是Digita1.exhaust),交易数据等.(3)社交数据(Socia1.data):包括用户行为记录,反饿数据等.如Twitter,Facebook这样的社交媒体平台.大数据挖掘商业价值的方法主要分为四种:(1)客户群体细分,然后为每个群体H定制特别的服务.(2)模拟现实环境,发掘新的需求同时提高投资的回报率.(3)加强部门联系,提高整条管理链条和产业链条的效率.(4)留时艮务成本,发现隐藏线索进行产品和服务的创新.从三大产业的角度将大数据的核心商业价值分类讨论.大数据应用,是利用大数据分析的结果,为用户提供辅助决策,发掘潜在价值的过程,从理论上来:所有
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大大 数据 分析 报告 论文 设计
