面向人工智能的数据治理实践指南(1.0).docx
《面向人工智能的数据治理实践指南(1.0).docx》由会员分享,可在线阅读,更多相关《面向人工智能的数据治理实践指南(1.0).docx(40页珍藏版)》请在优知文库上搜索。
1、一、人工笆能数据治理概念界定(一)数据治理的发展1 .数据治理的发展数据治理的概念起源于企业管理领域,关于数据治理的定义研究众多,但由于业界权威研究机构、研究学者以及国内外标准组织研究视角不同,尚未形成较为统一的认知。国际数据治理研究所(DG1.)提出数据治理的定义为“一个根据既定模型针对信息相关过程的决策权和职责分配体系梅宏院士在数据治理之论一书中提出数据治理的核心内容包括以释放数据价值为目标、以数据资产地位确立为基础、以数据管理体制为核心、以数据共享开放利用为重点、以数据安全与隐私保护为底线。国际数据管理协会(DAMA)提出的数据治理概念为“在管理数据资产过程中行使权力和管控活动,包括计划
2、、监控和实施。”此外,在国际标准中,最早出现的数据治理(daiagOVCrnaneC)术语定义源自IS0/TR14872:2019Hea1.thinformaticsIdentificationofmedicina1.productsCoreprincip1.esformaintenanceOfidcniificrsandterms,将其定义为“以管理信息的质量、一致性、可用性、安全性和可用性为重点的过程”,并强调该过程与数据所有权和管理的概念密切。从上述定义的内容来看主要对信息质量的管理,而后有国际标准从IT治理、数据资产管理等视角定义数据治理,逐渐凸显数据治理应具有统筹协调、权责分配、资源
3、调度等核心能力,涉及数据质量、数据安全、数据合规等关键治理内容。在国家标准中,最早出现的数据治理术语定义源自GBT35295-2017信息技术大数据术语,将其定义为“对数据进行处置、格式化和规范化的过程。“,从定义内容来看主要是从数据管理视角来理解数据治理,而后有国家标准从数据管理权利、管控活动等视角定义数据治理,逐渐凸显数据治理具有过程性、集合性以及统筹与协调管控的特征。结合通用场景下数据治理定义的特征来看,数据治理的核心治理内容主要围绕数据质量、数据安全、数据合规等内容展开,强调要围绕治理内容进行统筹协调、权责分配、资源调度等。2 .数据治理的三个阶段第一阶段,20世纪80年代,随着数据库
4、技术的发展,企业开始意识到数据的重要性。但当时数据管理主要依靠数据库管理系统(DBMS),直到1988年由麻省理工学院的两位教授启动了全面数据质量管理计划(TDQM),可以认为是数据治理最初的雏形。第二阶段,伴随着数据仓库的建设,主数据管理与商务智能平台的实施,国内也逐步开始接受并利用数据治理的概念进行推广实践。第三阶段,21世纪20年代,以大模型为代表的生成式模型成为推动人工智能发展的重要驱动力。大模型的兴起对数据治理提出了新的挑战和需求。B-mK-DBMS01第二舱段EDW02m.CMbM(际Bmm国年IOa务手来论文OMRg然f中开触观一IttCtt的却M*g1.0AMA(KXVttKU
5、1.911Qg.OMUMOMKWITK-ttff9S(10)发布.mutOR和MIewrft6.43UOfnIEttasr-三(10)xWHinaAG1.03MAxmumax三Mrs*rrtMtnM.*B,TJtiAIMBfiOJtMm.对个於em产事WMM.Mn隼.WiAIWWAKW三OW以JB图为中b时ttKBtt!f出手.3 .大模型时代数据治理的难题随着人工智能技术的飞速发展,大模型已成为推动A1.应用创新的重要驱动力。这些模型依赖于海量的数据、强大的算力以及复杂的算法参数来支撑其庞大的智能体系。在这一过程中,数据可谓是大模型的“灵魂”,塑造了其独特的“个性”。大模型的智能程度与“个性
6、”表现,促使人类社会生产力迈上新的台阶,同时也带来了更大的挑战与危险。1)数据“高量低质”数据是人工智能技术的基石,是大模型训练和推断的原材料已成为共识。然而,数据的数量和质量并不总是成正比。在来源上,模型往往依赖于从互联网、社交媒体和公开数据库中采集的数据进行训练,这些数据的来源和质量无法得到有效控制。在管理上,我们面对多模态、非结构化数据缺乏理论与技术的支操来客观评价数据质量的高低。这些问题需要数据治理来解决,但传统的数据治理理论与实践更多的适配于面向B1.时代的结构化数据,在人工智能所需要的结构化、半结构化、多模态数据上较为空白。为了应对这些挑战,开发出更负责任、更可控的人工智能应用,面
7、向人工智能的数据治理(DG4AI,DataGovernanceforArtificia1.Inte1.1.igence)概念应运而生,它旨在通过创新的数据管理策略和技术,解决A1.发展中的痛点问题。2)安全与隐私泄露频发随着大模型对数据的依赖性日益增强,数据安全和隐私保护已成为核心问题.在大模型的全链路研发、管理和应用过程中,其各个阶段都存在着数据安全与隐私的问题和风险,包括但不限于数据的过度采集、样本的偏差、数据的投毒等情况,存在危害个人、企业甚至社会的安全与利益的巨大风险。3)偏见与歧视随处可见在科技E速发展的背景下,人工智能伦理和道德的关注程度及应对措施尚未完全跟上技术的步伐。自然语言处
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 面向 人工智能 数据 治理 实践 指南 1.0
