将数据湖讲明白了.docx
《将数据湖讲明白了.docx》由会员分享,可在线阅读,更多相关《将数据湖讲明白了.docx(9页珍藏版)》请在优知文库上搜索。
1、数据湖:数据仓库贴源层结构化数据半结构化数据T留构化数据事实表维度表数据集市集市表数据服务作为全局数据汇总及处理的核心功能,数据湖在数据中台建设中必不可少。那么它与数据仓库、数据中台是什么关系?下图显示了一个典型的从数据采集到数据湖、数据仓库及数据集市,最后为数据应用提供服务的流程。可以看到,除了为数据仓库提供原始数据之外,数据湖也可以直接为上层的数据应用提供服务。与数据湖不同,数据仓库是针对OLAP需求建设的数据库,可以分析来自交易系统或不同业务部门的结构化数据。数据仓库中的数据由原始数据经过清理、填充和转换后按照核心业务逻辑组织生成。数据仓库一般必须预先定义好数据库SChema,重点是实现
2、更快的SQL驱动的深度报告和分析。数据源数据库日志文件Kafka其他数据源数据应用可视化报表交互式编程数据服务大屏展示其他应用从数据采集到提供数据服务的流程图01数据湖的起源与作用数据湖的出现主要是为了解决存储全域原始数据的问题。在捕获来自业务应用程序、移动应用程序、IoT设备和互联网的结构化和非结构化数据时,实际上并没有预先定义好数据结构,这意味着可以先存储数据而无须进行精心设计,也无须明确要进行什么分析,由数据科学家和数据工程师在后续工作中探索和尝试。这个改动极大推动了大数据的发展,早期大数据系统的一大吸引力是能够存储大量日志数据供后期探索,很多大数据应用就是在大数据系统将数据采集上来之后
3、才出现的。为什么一定要单独建立数据湖呢?要回答这个问题,我们先来了解数据湖的一个重要组成部分一ODS(OperatingDataStore,运营数据存储)。在20世纪90年代数据仓库刚出来的时候,就已经有ODS了。可以说ODS是数据湖的先行者,因为ODS和数据湖有两个共同的重要特征:不加转换的原始数据,可以进行不预先设置的分析。ODS一般用来存储业务运营数据,也就是OLTP(联机事务处理)数据的快照和历史,而数据仓库一般用来存储分析数据,对应OLAP(联机分析处理)需求。下表列出了OLTP和OLAP的一些区别。OLTP和OLAP的区别场景股为高并发、低时延一般为低并发、大吞吐量用户操作人员、一
4、线管理人员分析决策人员、高级管理人员功能用于存储和管理日常操作的数据.如当前应用的最新日常操作数据用于分析日常操作的数据,如历史的、聚集的、多维的、集成统一的数据DB设计面向事务,主要处理大量用户下的大量事务.一般不存储历史数据(MB、GB级别)面向主题,用于分析日常操作的多维数据库,存储的数据包括历史数据(GB、TB.PB级别)数据模型一般使用实体对象模型.必须满足数据库第三范式(3NF)或更高搬使用维度模型.如星型模型、雪花模型.一般不需要满足3NF查询杳询语句一般非常简单直接.以增、删.改、查(CRUD)为主.返回少量数据杳询语句般非常复杂,以多维度钻取、汇聚为主,返回大量数据OLTPO
5、LAP绝大多数情况下,业务数据库的SQL库表的结构与数据仓库的结构是不一样的:业务数据库是为OLTP设计的,是系统实时状态的数据;而数据仓库的数据是为OLAP的需求建设的,是为了深度的多维度分析。这个差异造成基于数据仓库的数据分析受到以下限制:-数据仓库的架构设计是事先定好的,很难做到全面覆盖,因此基于数据仓库的分析是受到事先定义的分析目标及数据库SChema限制的;-从OLTP的实时状态到OLAP的分析数据的转换中会有不少信息损失,例如某个账户在某个具体时间点的余额,在OLTP系统里一般只存储最新的值,在OLAP系统里只会存储对张户操作的交易,一般不会专门存储历史余额,这就使得进行基于历史余
6、额的分析非常困难。因此,在建立数据仓库的时候,我们必须先将OLTP数据导入ODS,然后在ODS上进行ETL操作,生成便于分析的数据,最后将其导入数据仓库。这也是为什么ODS有时也被称为数据准备区(stagingarea)o随着HadooP的逐渐普及,大家发现数据仓库底层的技术(关系型数据库)无法处理一些非结构化数据,最典型的就是服务器日志包含的数据。除了这些分析上的功能缺陷之外,传统数据仓库底层使用的关系型数据库在处理能力上有很大局限,这也是数据湖,直至整个大数据生态出现的一个主要原因。在Hadoop出现之前,就有Teradata和VertiCa等公司试图使用MPP(MassivelyPara
7、llelProcessing,大规模并行处理)数据库技术来解决数据仓库的性能问题。在HadooP出现之后,HiVe成为一个比较廉价的数据仓库实现方式,也出现了PreSt0、ImPala这些SQLon-Hadoop的开源MPP系统。从2010年开始,业界逐渐将0DS、采集的日志以及其他存放在HadOOP上的非结构或半结构化数据统称为数据湖。有时,数据湖中直接存储源数据副本的部分(包括ODS和日志存储)被称为贴源数据层,意思是原始数据的最直接副本。从根本上来讲,数据湖的最主要目标是尽可能保持业务的可还原度。例如,在处理业务交易的时候,数据湖不仅会把OLTP业务数据库的交易记录采集到数据湖中的ODS
8、,也会把产生这笔交易的相关服务器日志采集到数据湖的HDFS文件系统中,有时还会把发回给客户的交易凭证作为文档数据存放。这样,在分析与这笔交易相关的信息时,系统能够知道这笔交易产生的渠道(从服务器分析出来的访问路径),给客户的凭证是否有不合理的数据格式(因为凭证的格式很多时候是可以动态变化的)。02数据湖建设的4个目标数据湖的建设方式有很多种,有的企业使用以HadoOP为核心的数据湖实现,有的企业以MPP为核心加上一些对象存储来实现。虽然建设方式不同,但是它们建设数据湖的目标是一致的,主要有以下4点。D高效采集和存储尽可能多的数据。将尽可能多的有用数据存放在数据湖中,为后续的数据分析和业务迭代做
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 明白