数据仓库之路FAQ.docx
《数据仓库之路FAQ.docx》由会员分享,可在线阅读,更多相关《数据仓库之路FAQ.docx(23页珍藏版)》请在优知文库上搜索。
1、数据仓库之路FAQ数据仓库之路FAQyiyiya2002年10月FAQ目录一、 与数据仓库有关的几个概念21.1 目录2二、 数据仓库产生的原因5三、 数据仓库体系结构图7四、 数据仓库设计84.1 数据仓库的建模84.2 数据仓库建模的十条戒律:8五、 数据仓库开发过程95.1 数据模型的内容95.2 数据模型转变到数据仓库95.3 数据仓库开发成功的关键10六、 数据仓库的数据采集106.1 后台处理116.2 中间处理126.3 前台处理126.4 数据仓库的技术体系结构126.5 数据的有效性检查146.6 清除与转换数据146.7 简单变换156.8 清洁与刷洗176.9 集成176
2、.10 聚集与概括196.11 移动数据19七、 如何建立数据仓库207.1 数据仓库设计217.2 数据抽取模块217.3 数据保护模块22与数据仓库有关的几个概念1.1目录 Datawarehouse Datamart OLAP ROLAP MOLAP ClientOLAP DSS ETL Adhocquery EIS BPR BI Datamining CRMMetaDataDatawarehouse本世纪80年代中期,“数据仓库之父WilliamHJnmon先生在其建立数据仓库一书中定义了数据仓库的概念,随后又给出了更为精确的定义:数据仓库是在企业管理与决策中面向主题的、集成的、与时间
3、有关的、不可修改的数据集合。与其他数据库应用不一致的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合、加工与分析的过程。而不是一种能够购买的产品。Datamart即数据集市,或者者叫做“小数据仓库”。假如说数据仓库是建立在企业级的数据模型之上的话。那么数据集市就是企业级数据仓库的一个子集,他要紧面向部门级业务,同时只面向某个特定的主题。数据集市能够在一定程度上缓解访问数据仓库的瓶颈。OLAP联机分析处理(OLAP)的概念最早是由关系数据库之父E.ECodd于1993年提出的。当时,Codd认为联机事务处理(OLTP)已不能满足终端用户对数据库查询分析的需要,SQL对大数据库进行的
4、简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此Codd提出了多维数据库与多维分析的概念,即OLAPoCodd提出OLAP的12条准则来描述OLAP系统:准则1OLAP模型务必提供多维概念视图准则2透明性准则准则3存取能力推测准则4稳固的报表能力准则5客户/服务器体系结构准则6维的等同性准则准则7动态的稀疏矩阵处理准则准则8多用户支持能力准则准则9非受限的跨维操作准则10直观的数据操纵准则11灵活的报表生成准则12不受限的维与聚集层次ROLAP基于COdd的12条准则,各个软件开发厂家见仁见智,其中一个流派,
5、认为能够沿用关系型数据库来存储多维数据,因此,基于稀疏矩阵表示方法的星型结构(starschema)就出现了。后来又演化出雪花结构。为了与多维数据库相区别,则把基于关系型数据库的OLAP称之RelationalOLAP,简称Re)LAP。代表产品有InformixMetaCUbe、MicrosoftSQLServerOLAPServices.MOLAP严格遵照Codd的定义,自行建立了多维数据库,来存放联机分析系统数据的ArborSOftWare,开创了多维数据存储的先河,后来的很多家公司纷纷使用多维数据存储。被人们称之MuiltDimensionC)LAP,简称MOLAP,代表产品有HyPe
6、riOn(原Arborsoftware)ESSbaSe、ShowcaseSTRATEGYoClientOLAP相关于SerVerOLAP而言。部分分析工具厂家建议把部分数据下载到本地,为用户提供本地的多维分析。代表产品有BrioDesigner,BusinessObject.DSS决策支持系统(DecisionSupportsystem),相当于基于数据仓库的应用。决策支持就是在收集所有有关数据与信息,通过加工整理,来为企业决策管理层提供信息,为决策者的决策提供根据。ETL数据抽取(EXtract)、转换(Transform)、清洗(Cleansing)装载(LOad)的过程。构建数据仓库的重
7、要一环,用户从数据源抽取出所需的数据,通过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。Adhocquery即席查询,数据库应用最普遍的一种查询,利用数据仓库技术,能够让用户随时能够面对数据库,获取所希望的数据。EIS领导信息系统(ExecutiveInformationSyStem),指为了满足无法专注于计算机技术的领导人员的信息查询需求,而专门制定的以简单的图形界面访问数据仓库的一种应用。BPR业务流程重整(BusinessProcessReengineering),指利用数据仓库技术,发现并纠正企业业务流程中的弊端的一项工作。数据仓库的重要作用之一。BI商业智能(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 FAQ
