面对大数据的数据仓库系统.pptx
《面对大数据的数据仓库系统.pptx》由会员分享,可在线阅读,更多相关《面对大数据的数据仓库系统.pptx(45页珍藏版)》请在优知文库上搜索。
1、大数据分析原理与实践1010、面对大数据的数据仓库系统、面对大数据的数据仓库系统数据仓库 数据分析的对象是“数据” 因此必须对数据进行有效管理,这便是数据仓库的职责。 数据仓库两方面的需求 可扩展性和高效率。 面对大数据的数据仓库系统对这个需求要求更高,因此分布式数据仓库系统和内存数据仓库系统应运而生。目录目录数据仓库概述数据仓库概述分布式数据仓库系统分布式数据仓库系统内存数据仓库系统内存数据仓库系统123目录目录数据仓库概述数据仓库概述分布式数据仓库系统分布式数据仓库系统内存数据仓库系统内存数据仓库系统123数据仓库概述什么是数据仓库一个面向主题的、集成的、稳定的、包含历史数据的数据集合,它
2、用于支持管理中的决策指定过程。W. H. Inmon 美国著名信息工程学家、数据仓库之父数据仓库概述什么是数据仓库一个面向主题的、集成的、稳定的、包含历史数据的数据集合,它用于支持管理中的决策指定过程。W. H. Inmon 美国著名信息工程学家、数据仓库之父数据仓库概述什么是数据仓库1. 面向主题这意味着在数据仓库的设计过程中,数据以所代表的业务内容划分,而不是以应用划分。2. 数据集成性数据仓库中的数据采取统一的格式和编码方式。3. 稳定的这意味着数据仓库中的数据不进行实时更新。4. 与时间相关的这意味数据仓库中的数据组织方式要便于按时间段计算和提取数据。面向主题集成的稳定的与时间相关的的
3、数据仓库概述数据仓库的内涵1. 支持多种数据源数据仓库应支持多种数据源,不仅仅是数据库,还应有各种数据文件、文本文件、应用程序等。2. 不只存放数据数据仓库中存放的应该不仅是供分析使用的数据,还应有在一定激发条件下能主动起作用的处理规则、算法、甚至是过程。3. 虚拟数据仓库传统的物理数据仓库方法并非唯一的选择,应根据需求的具体情况,建立虚拟数据仓库的解决方案。4. 汇总并统一据仓库中的数据并不完全是原始数据的简单归并和搬家,而应该是增值和统一。因此“汇总并统一”是数据仓库的必须内涵描述。数据仓库概述四个基本功能1. 数据定义这部分主要完成数据仓库的结构和环境的定义。2. 数据提取这部分负责从数
4、据源提取数据,并对获得的源数据进行必要的加工处理,使其成为数据仓库可以管理的数据格式和语义规范。3. 数据管理数据管理由一组系统服务工具组成,负责数据的分配和维护,支持数据应用。4. 数据应用数据仓库的数据应用除了一般的直接检索性使用外,还应当能够完成比较常用的数据表示和分析,如图表表示、统计分析、结构分析等。数据仓库概述数据仓库系统的体系结构1. 元数据 是关于数据的数据,是关于数据和信息资源的描述信息。 是数据仓库的核心。数据仓库概述数据仓库系统的体系结构1. 元数据2. 源数据 是分布在不同应用系统中,存储在不同平台和不同数据库中的大量数据信息。 是数据仓库的物质基础。数据仓库概述数据仓
5、库系统的体系结构1. 元数据2. 源数据3. 数据变换工具 为了优化数据仓库的分析性能,源数据必须经过变换以最适宜的方式进入数据仓库。 包括数据抽取,数据转换,数据装载。数据仓库概述数据仓库系统的体系结构1. 元数据2. 源数据3. 数据变换工具4. 数据仓库 源数据经过变换后进入数据仓库。数据仓库以多维方式来组织数据和显示数据。 属性维和时间维时数据仓库反映现实世界动态变化的基础,它们的数据组织方式时整个数据仓库的关键。数据仓库概述数据仓库系统的体系结构1. 元数据2. 源数据3. 数据变换工具4. 数据仓库5. 数据分析工具 数据库系统的目标是提供决策支持,它不仅需要一般的统计分析工具,更
6、需要强大的分析和挖掘工具。数据仓库概述数据仓库系统的体系结构1. 元数据2. 源数据3. 数据变换工具4. 数据仓库5. 数据分析工具 分析工具主要用于对数据仓库中的数据进行分析和综合。 挖掘工具负责从大量数据中发现数据之间的关系,找到可能忽略的信息,预测趋势和行为。数据仓库概述数据仓库系统的建立2. 选择平台3. 建立数据仓库的模型4. 数据仓库数据模型优化5. 数据清洗、转换和传输6. 开发数据仓库的分析应用7. 数据仓库的管理主题 在数据分析或前端展现的某一方面的分析对象,例如分析某年某月某一地区的啤酒销售情况。 一个主题在数据仓库中即为一个数据集市,数据集市体现了某一方面的信息,多个数
7、据集市构成了数据仓库。数据仓库概述数据仓库系统的建立2. 选择平台3. 建立数据仓库的模型4. 数据仓库数据模型优化5. 数据清洗、转换和传输6. 开发数据仓库的分析应用7. 数据仓库的管理确定主题 确定主题需要综合考虑。 主题的确定必须建立在现有联机事务处理(OLTP)系统的基础上,否则按此主题设计的数据仓库将成为一个空壳,缺少可存储的数据。 但一味注重OLTP数据信息,也将迷失数据提取方向,偏离主题。 故需要在OLTP数据和主题之间找到一个”平衡点“。数据仓库概述数据仓库系统的建立1. 确定主题2. 选择平台3. 建立数据仓库的模型4. 数据仓库数据模型优化5. 数据清洗、转换和传输6.
8、开发数据仓库的分析应用7. 数据仓库的管理选择合适的软件平台 数据库、建模工具、分析工具等。需要考虑的因素 系统对数据量、响应时间、分析功能的要求等。数据仓库概述数据仓库系统的建立1. 确定主题2. 选择平台3. 建立数据仓库的模型4. 数据仓库数据模型优化5. 数据清洗、转换和传输6. 开发数据仓库的分析应用7. 数据仓库的管理需要考虑的因素 一些公认的标准:数据库对大数据量的支持能力数据库是否支持并行操作能否提供数据仓库的建模工具是否支持对源数据的管理能否提供支持大数据量的数据加载、转换、传输工具能否提供完整的决策工具集能否满足数据仓库中各类用户的需要数据仓库概述数据仓库系统的建立1. 确
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 面对 数据 数据仓库 系统
