数据服务数据分析.pptx
《数据服务数据分析.pptx》由会员分享,可在线阅读,更多相关《数据服务数据分析.pptx(19页珍藏版)》请在优知文库上搜索。
1、u指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。在统计的基础上,查找数据群体特征;u简而言之:就是对群体数据的描述、判别、预测、决策的过程。数据分析数据分析描述性数据分析描述性数据分析诊断性数据分析诊断性数据分析预测性数据分析预测性数据分析010203指令性数据分析指令性数据分析04描述性数据分析01u描述性数据分析属于比较初级的数据分析,常见的分析方法包括对比分析法、平均分析法、交叉分析法等。u描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图
2、形等。u描述性分析是对数据进一步分析的基础。均值、中位数、众数体现了数据的集中趋势。极差、方差、标准差体现了数据的离散程度。偏度、峰度体现了数据的分布形状。常用指标常用指标展示方式excel、wps等表格输出复杂的数据、数据关系等;合计、同比、环比等;数据可视化主要旨在借助于柱状图、饼图、散点图、折线图等图形化手段,清晰有效地传达与沟通信息。目的是简化信息、突出重点。时间4月上旬4月中旬4月上旬5月上旬乘车人次181217992080262418121799208026240500100015002000250030004月上旬 4月中旬 4月上旬 5月上旬乘车人次乘车人次乘车人次文本表格图形
3、诊断性数据分析02描述性数据分析的下一步就是诊断性数据分析。通过评估描述性数据,诊断分析工具能够让数据分析师深入地分析数据,钻取到数据的核心。按照时间序列进行数据读入、特征过滤和钻取数据等,以便更好的分析数据。诊断分析的目标是了解事情发生的原因。例如,二七广场的人流量,工作日约为20万,周末约为30万,假期为35万,就需要对人流量进行多维度分析,进行分类或聚类,进而得出几个人流量特征(逛街、购买物品、游玩、乘火车路过、工作等),然后分析每个特征对人流量的影响度。研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法。例如,人的身高和体重之间;空气中的相对湿度与降雨量之间的相关关系都
4、是相关分析研究的问题。因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子,以较少的几个因子反映原资料的大部分信息。运用这种研究技术,我们可以方便地找出影响消费者购买、消费以及满意度的主要因素是哪些,以及它们的影响力。相关模型因子模型一组将研究对象分为相对同质的群组的统计分析技术。聚类分析也叫分类分析,或者数值分类。聚类的输入是一组未被标记的样本,聚类根据数据自身的距离或者相似度将其划分成若干个组,划分的原则是组内距离最小化而组间(外部)距离最大化。聚类和分类的不同在于:聚类所要求划分的类是未知的。k-means算
5、法中的k代表类簇个数,means代表类簇内数据对象的均值(这种均值是一种对类簇中心的描述),因此,k-means算法又称为k-均值算法。k-means算法是一种基于划分的聚类算法,以距离作为数据对象间相似性度量的标准,即数据对象间的距离越小,则它们的相似性越高,则它们越有可能在同一个类簇。数据对象间距离的计算有很多种,k-means算法通常采用欧氏距离来计算数据对象间的距离。邻近算法,或者说K最近邻(KNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。预测性数据分析03
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 服务 分析