《华阳集团数据管理体系建设与应用实践.docx》由会员分享,可在线阅读,更多相关《华阳集团数据管理体系建设与应用实践.docx(12页珍藏版)》请在优知文库上搜索。
1、华阳集团数据管理体系建设与应用实践在信息技术变革大潮中,华阳集团紧跟时代步伐。随着管理系统建设,数据量规模不断攀升,数据的类型也呈现多样化。目前,数据库根据业务需求的不同,研究和应用背景的不同,从语法、语义、模式等具有异构性的方向,进行独立设计开发,使集团级数据共享、整合与集成应用面临巨大挑战。2022年6月,华阳集团数据信息部针对上述问题,根据企业信息系统建设整体情况,将高度复杂的、海量的、分散的、异构的集团整体数据进行了自上而下的科学规划,依据国家八部委联合发布关于加快煤矿智能化发展的指导意见要求,结合企业实际生产经营,借助企业已有的硬件设备包括:存储器、服务器、网络等,搭建了数据采集管理
2、平台,构建了企业数据治理体系,建成了集团级数据标准库、标签数据库、算法库、知识库和业务数据库等数字化资源管理平台,建成了工业算法模型、图像处理、视频识别和自然语言识别的Al服务平台,为上层的业务智能化应用提供数据服务,打通了数据与智能应用之间的屏障,实现企业智能化基础。华阳集团数据管理平台为实现企业的智能检索、智能推荐、智能协同、智能问答和用户画像应用提供了标准化的数据接口和高精度的数学算法服务,实现了企业数字化、数字资产化的历史性蜕变。1系统开发设计1.1 建设目标华阳集团企业级数据管理体系建设主要目标是实现“一个平台、两个体系、三个特征、四个统一、五个服务”的一体化数据管理全景图。一个平台
3、:搭建一个一体化的数据管理平台;两个体系:建立数据治理体系和数据管理体系;三个特征:确保数据的准确性、唯一性、共享性;四个统一:达到数据的统一标准、统一来源、统一接口、统一服务;五个服务:提供数据查询、数据调用、数据分发、公共数据资源、数据即时服务。构建企业数据治理体系,依托数据管理平台,对企业各业务系统数据进行数据综合治理,最终形成企业数据资产。搭建数据管理平台,研发智能算法,利用企业数据资产,生成数据模型和业务需求模型,实现企业数据智能检索、智能协同、智能问答机器人和用户画像等Al智能业务场景应用。1.2 建设内容涉及数据范围:根据企业智能应用场景将数据分为感知数据、监测监控数据、经营管控
4、数据、外部数据、历史数据。感知数据包括MESGIS和地质保障系统等采集的智能掘进、智能开采、煤流监控、辅运监控、通风监控、压风监控和工业视频等数据;监测监控数据主要由传感设备采集的人员定位、瓦斯监控等数据;经营管控数据指由ERP系统、SRM系统、OA系统运行过程中存储的生产管理数据、安全管理数据、OA文件数据、人力资源数据、成本数据、物资数据、运销数据、车辆定位数据、煤质数据等;外部数据是从外部数据接口采集的市场行情、煤价、气象、供应商企业信息、客户企业信息、客户舆情、行业信息等数据;历史数据指生产管理系统、经营管理系统、地质管理系统、综合自动化系统、工业视频监控系统等储存的历史数据。涉及应用
5、场景:基于数据治理体系框架和数据管理平台,优先建设生产管理、设备管理、安全管理、经营管理等业务智能应用场景,将数字化业务场景应用纳入数据管理体系中,建立统一的数据应用标准规范,实现数据统一性、复用性和共享性。智能应用场景包括智能检索、智能推荐、智能协同(合同履约)、智能问答、用户画像等应用。数据管理和数据治理的区别:数据管理和数据治理建设内容有很多重叠部分,但数据管理在范围上讲包含数据治理。数据管理包括多个不同的领域,其中最显著的领域就是数据治理。DMM数据管理成熟度模型中数据治理是其中一个数据管理分类。数据管理协会(DAMA)在数据管理职能框架中认为,数据治理是数据管理的子集。数据管理中要保
6、证一个组织已经将数据转换为有用的信息,这项工作所需要的流程和工具就是数据治理工作。数据管理体系:数据管理体系建设是个系统化的工程,涉及众多源系统的交互。数据管理体系涵盖包含数据标准管理体系、数据管控体系、数据技术服务体系、数据质量要求、数据安全要求等内容。数据管理体系架构如图1所示。规殖高效的1K技术AK将图1数据管理体系架构集团企业级数据管理体系主要通过数据汇聚整合、萃取加工、服务可现及价值变现,建立贯穿数据接入、数据存储、数据汇聚层、数据开发和数据服务的运行管理机制;提供标准的数据规范制度和管控流程,实现数据变资产并服务于应用的总体目标。华阳集团企业级数据管理体系建设思路如图2所示。应用场
7、景l*w理平台I I I - Il - I . (Wn .SmxiQMBMN我安全1 MXSH I W I MBl I I T | | I I I I -M I MM 10交,企业嘉含云平台(MS.网18.存)图2华阳集团企业级数据管理体系建设思路数据主题域:据数据主题域分类维度,在APl管理中分别建立基于系统维度、业务域维度和应用维度的主题域结构。数据主题域元数据分别为主题域一级分类、主题域二级分类。其中主题域一级分类、主题域二级分类基于两种不同维度有相应的变化。本期主题域建设,会在生产、安全、经营、企业、专家、管理六大领域(一级类目)的基础上,在建设过程中逐步完善二、三、四级类目。数据治理
8、体系:集团数据治理体系实施以DCMM数据治理体系为指导,结合行业实践,形成了“盘、规、治、用”的实施方法论,搭建了一个合理高效的业务数据监管体系,降低了企业业务运营成本,依托数据管理平台,提升了业务处理效率,改善了数据质量,为企业管理决策进行赋能。数据治理体系主要内容包括元数据管理、主数据管理、数据标准管理、数据资产管理、数据质量管理、数据安全管理等。DCMM数据治理体系框架如图3所示。敷握生存周期数据需求数据设计与开发数据运维收据退役图3DCMM数据治理体系框架元数据管理:元数据又称为中继数据,是描述数据的数据,主要描述数据属性的信息,是科学数据有效共享的方法之一。元数据分为技术元数据和业务
9、元数据。元数据基本管理包括元模型管理、元数据管理和元数据分析。元数据分析功能主要实现针对元数据的基本分析功能,包括血缘分析、影响分析、实体关联分析、实体影响分析、主机拓扑分析、指标一致性分析等。数据质量管理:主要针对数据的开发、应用和管理进行规范和指导,主要解决数据的不完整、数据格式不一致、空值和乱码,提高数据准确性和标准度。数据质量管理定义数据质量评价维度和数据质量评价体系,提供质量指标定义、质量稽核、质量问题分析和统计等功能。高质量的主数据依赖于围绕主数据构建的流程、系统和管理要求,其对应的载体为主数据管理系统。数据安全管理:主要在传统的安全防御基础上,强化数据信息安全和数据使用安全,加强
10、数据脱敏和加密处理,防止数据丢失、泄露和窃取,确保企业数据安全。数据监督管理:对数据进行算法和人工校验,实现自动监控和预警监督的管理过程。数据全生命周期管理:从数据使用规划开始,包括采集、开发、产生、建模、业务应用系统调用、更改、存储和消亡整个生命流程管理。通过对数据的跟踪,加强数据管理措施,降低数据管理成本,提高数据质量,升级数据安全,提高数据的兼容性和复用性,最终达到数据价值最大化。2关键技术分析2.1数据采集技术本系统用到的数据采集技术主要有抓取技术、日志采集技术、数据连接技术和文件导入技术。(1)抓取技术主要通过网络爬虫程序对网页、APl等进行数据抓取,实现互联网上所有供应商和客户的企
11、业信息及行业关注焦点新闻。(2)日志采集技术主要对各应用程序的日志进行采集,实现数据使用的跟踪。(3)数据库连接技术是使用标准的数据接口协议和数据接口,从企业内部各业务系统中,收集非结构化、半结构化和结构化的数据,且将这些数据存储到数据中心。(4)文件导入技术,是通过文件导入器将各种格式的文件导入数据中心。2.2元数据管理设计元数据管理是数据治理工作的重要组成部分。以元数据为抓手进行数据治理,可以帮助企业更好地对数据资产进行管理,理清数据之间的关系,实现精准高效的分析和决策;可以为数据集成、数据质量管理、数据加工整合、日常运行维护、数据安全管理和业务应用提供基础能力支持。元数据管理通过建立元数
12、据模块、元数据表、元数据视图实现机器自动写代码功能。元数据管理如图4所示。全面应用模型管理元数据管理分折、彩一分析.动为 *tt4EB4元数据应用CTMUT. MV, AVSKft. *务分析应用图4元数据管理2.3数据标准设计数据标准是为企业建立的一套符合自身实际,涵盖定义、操作、应用多层次数据的标准。数据标准可以划分为两类,即基础性标准和应用性标准。前者主要用于在不同系统间,形成信息的一致理解和统一的坐标参照系统,是信息汇集、交换以及应用的基础,包括数据分类与编码、数据字典;后者是为平台功能发挥所涉及的各个环节,提供一定的标准规范,以保证信息的高效汇集和交换,包括数据采集方法、数据清洗、数
13、据资产管理、数据生命周期管理、数据安全管理等。2.4数据质量控制主要关注数据记录、关键字段和业务规则三个方面的数据质量控制。系统核对记录数据主要在数据采集、数据清理、数据转化三个阶段,将取得的数据记录和数据总量与系统中反映的数据进行核对,确保电子数据完整性。对于非结构化的数据,系统将用文件数据量和大小与数据提供清单进行对比,核实数据的可用性和完整性。对于结构化的数据,系统将核对总数量和分类汇总项数量。系统验证关键字段采用字段长度核对、最大和最小值审核、孤立点检测、真实性核对、范围核对、空值替换等验证方法对表字段的完整性和乱码进行检验。系统业务规则验证是指利用业务专业标准和业务逻辑,设计一套有效
14、的勾稽检查算法,对系统收集的业务数据进行逻辑校验的过程。2.5数据资产管理数据资产管理数据提供方通过数据资产管理进行数据资产的信息录入,对资产进行分类产生主题数据。在交换任务的事前、事中和事后都提供实时数据资源管理来保证数据交换的质量。以元数据为核心,通过共享、使用、管理和开发实现数据资产的闭环管理,全面支撑大数据应用。2.6数据模型设计数据模型设计是指从企业业务的视角,对企业业务活动相关数据采用统一、规范的定义和数据建模方法构造模型。数据仓库:主要存储来自源数据系统的明细数据,基本不做数据加工,设置字段命名注释等,均需要跟源数据系统保持一致。数据仓库数据结构与生产数据的源业务系统保持一致,承
15、担源业务系统数据全量存储职能。数据通过数据平台提供的数据同步工具进入数据仓库,只存放当前或接近当前的数据,如果需要的话还可以对数据仓库中的数据进行增、删和更新等操作。3应用实践及效果展示华阳集团企业级数据管理体系确保了业务数据的唯一性、准确性和共享性,为企业业务应用系统和Al智能应用服务提供了来源统一、接口统一和标准统一的业务数据。3.1AI+搜索引擎Al与搜索引擎的结合让搜索引擎更加智能化,如智能推荐、智能搜索的Al应用。3.1.1智能推荐智能推荐实现了针对用户经常搜索、关注及浏览的内容,进行详细数据分析;根据用户偏好,智能推送用户关注内容和各种数据。智能推荐如图5所示。企业 行业 合同杓 曜吕翁 ShPBfl - w *waoBnat1 .了 *H WQ3JK4 X*f5tMJ5 mnc9x MMGHCWdHhtr 胱 erRffl -切 Tf VVB*ta9M BW*ttIWM全关注景希冽为B方准It5UdetTHm=IRISWKiSDRSMmfCECM9窗BaH季-MMK岳工或开InnBrtiSTEMB”方修次*taee(IKlnWr*Mnmms11fi.MXOM2M0Z)flW5MH3ftMS9eR0以作力flDMI以零ICMHWB.三三IMUlWe酣N&仑*尸中