《数据标准化体系的建立.docx》由会员分享,可在线阅读,更多相关《数据标准化体系的建立.docx(15页珍藏版)》请在优知文库上搜索。
1、数据标准化体系的建立企业信息资源管理(尔乂)基础标准是指决定企业信息系统质量的、因而也是企业信息资源开发利用的最基础的标准,包括数据元素标准、信息分类编码标准用户视图标准、概念数据库标准和逻辑数据库标准。1.1 数据元素标准数据元素(12Elements)是最小的、不可再分的信息单元,其标准化具有化学元素在化学世界中的重要意义。本项目要建立的数据元素标准,除了遵循国家与行业标准外,还要从本企业信息化的需要做补充,并且用工具软件来支持其建立和管理应用。数据元索命名规范:采用词组结构“修饰词-基本词-类别词”命名数据元素。例.“社会保险编号(SOCIAL-SECURnY-NUMBER)是一个数据元
2、素,其结构是:社会保险编号类别词基本词修饰词类别词(ClassWord)是数据元素命名中的一个最重要的名词,用来识别和描述数据元素的一般用途或功能,一般不具有行业特征,条目比较少。常用的类别词有:数量(AMOUNT)名称(NAME)编号(NUMBER)代码(CODE)系数(CONSTANT)百分比(PERCENT)计数(CoUNT)正文(TEXT)日期(口人丁)时间(TIME)基本词(PrimeWord)是类别词的最重要的修饰词,它对一大类数据对象进一步分类(反映小类数据对象),一般具有行业特征,条目比较多。例如,制造业常用的基本词有:会计(ACCoUNTlNG)预算(BUDGET)雇客(CU
3、STOMER)分配(DISTRIBlrnON)员工(EMPLOYEE)工程(ENGlNEERlNG)设备(FACILnY)库存(INVENTORY)制造(MANUFACTURING)市场(MARKET)税金(丁人乂)订单(ORDERS)付款(PAYMENTS)计划(PLANNING)采购(PROCUREMENT)产品(PRoDUeT)研究(RESEARCH)销售(SALES)供应商(SUPPLIER)数据元索标识规范:采用英文缩略语标识数据元素。例.社会保险号码可标识为:SCL_SCR_NOo利用数据元素的命名规范和标识规范,识别定义出企业的所有数据元素,并执行一致定控制,消除“同名异义”和“
4、同义异名”的对象,就构成了一个企业的数据元素标准。1.2 信息分类编码标准值息分类编码(InformationClassifyingandCoding)是标准化的一个领域,已发展成了一门学科,有自身的研究对象、研究内容和研究方法。在工业社会中,信息分类和编码是提高劳动生产率和科学管理水平的重要方法。美国新兴管理学的开创者莫里斯L库克(MorrisL-CookeD说“只有当我们学会了分类和编码,做好简化和标准化工作,才会出现任何真正的科学的管理”。在信息化时代,信息的标准化工作越来越重要,没有标准化就没有信息化,信息分类编码标准是信息标准中的最基础的标准。信息分类编码简称“代码”,本项目要实现代
5、码唯一化,即“一人一码”,“一物一码”,“一机构一码”,“一事件一码“,等等。信息分类就是根据信息内容的属性或特征,将信息按一定的原则和方法进行区分和归类,并建立起一定的分类系统和排列顺序,以便管理和使用信息。信息编码就是在信息分类的基础上,将信息对象(编码对象)赋于有一定规律性的易于计算机和人识别与处理的符号。具有分类编码意义的数据元素是最重要的一类数据元素。应遵照GB/T20529.1-2006企业信息分类编码导则第1部分:原则与方法和有关于信息分类编码的标准规定,按照“国际/国家标准一行业标准一企业标准”的序列原则,引用或建立的信息分类编码标准。编码对象的分类要求按照信息资源规划的方法,
6、将信息分类编码对象划分为A、B、C三种类型,建立企业信息分类编码标准,是适合企业信息化建设需要的。A类编码对象:在信息系统中不单设编码库表,代码表寓于主题数据库表之中的信息分类编码对象,称之为A类编码对象。这类编码对象具有一定的分类方法和编码规则,其码表内容一般随信息的增加而逐步扩充,很难一次完成。虽然不单设编码库表,但其码表可以从数据库表中抽取出来作为一个虚表(是数据库表的一个投影)在信息系统中使用。这类编码对象一般在具体的应用系统中有较多的使用。如身份证号码(国家标准),客户编码、职工编码、设备编码(企业标准)等,都是A类编码。B类编码对象:在信息系统中单独设立编码库表信息分类编码对象,我
7、们称之为B类编码对象。这类码表内容具有相对的稳定性,可以组织力量一次编制出来。这类编码表一般都较大,像一些数据库表一样,在应用系统中往往被多个模块所共享,作为一些单独的库表管理是方便的。如国家行政区划编码、职称编码(国家标准)、生产统计项目编码(行业标准)、设备配件编码(企业标准)等等,都是B类编码。C类编码对象:在应用系统中有一些码表短小而使用频度很大的编码对象,如人的性别代码、文化程度代码和婚姻状况代码等等,如果都设立编码库表,不仅系统运行时资源开销大(或内外存交换编码信息频繁),还给系统管理带来一系列的问题,把这类对象统一设一个编码库来管理就可以了。按上述规则识别、定义、列出企业所有各类
8、编码对象,对每一编码对象制定编码规则,并按编码规则编制列出“代码-名称”一览表,即为企业的信息分类编码标准。1.3 用户视图标准用户视图(UserVie.)是一些数据元素的集合,它反映了最终用户对数据实体的看法。用户视图是数据在系统外部(而不是内部)的样子,是系统的输入或输出的媒介或手段,数据流就是用户视图的流动。常见的用户视图有:输入的表单;打印的报表;更新的屏幕数据格式;查询的屏幕数据格式。企业要建立网络化的信息系统,就要取消大量的报表信息传递,为此,需要分析用户视图,建立用户视图标准。用户视图登记:用户视图登记应包括用户视图名称用户视图分类编码用户视图记录数和生存期等。a)用户视图名称:
9、用一短语表示用户视图的意义和用途。b)用户视图分类编码规则:DXXXXXXX族码序号小类编码大类编码职能域编码其中: 大类按用户视图流向分类,编码取值:1二输入,2=存储,3二输出; 小类按用户视图类型分类,编码取值:1二单证,2二账册,3二报表,4=其它; 序号是指同一大类、小类中的用户视图的顺序,编码取值:0199; 族码是指同一用户视图拆分出的部分子视图编码,取值:A-Zo用户视图组成:用户视图应由数据项数据元素及其结构关系组成。复杂的用户视图应做规范化分析,如复杂报表应拆分,描述每一部分的组成。1.4 概念数据库标准概念数据库(COnCePtUalDatabase)是最终用户对数据存储
10、的看法,是对用户信息需求的综合概括。简单说,概念数据就是主题数据库的概要信息。概念数据库一般用数据库名称及其内容的描述来表达:概念数据库标识,概念数据库名称(信息内容描述)其中:概念数据库标识:用字符串(英文缩略语)表达;概念数据库名称:通常的汉语名词;信息内容描述:用自然语言(中文)或数据项/属性列表描述。例:“机构”和“员工”概念数据库:ORGN机构(机构代码,机构名称,机构基本信息)EMPL员工(员工代码,姓名,自然信息,简历,培训记录,)1.5 逻辑数据库标准逻辑数据阵(LogicalDatabase)是系统分析设计人员的观点,是对概念数据库的进一步分解和细化,一个逻辑主题数据库由一组
11、规范化的基本表BaSeTabIe构成。基本衰是按规范化的理论与方法建立起来的数据结构,一般要达到三范式(3-NF)o逻辑数据库用下述格式表示:逻辑数据库标识,逻辑数据库名称(主键,属性表)基本表i标识,基本表i名称(主键,属性表)(i=1,2,n)其中:逻辑数据库标识和逻辑数据库名称:即一级基本表的标识和名称,采用概念数据库的标识和名称;基本表i标识和基本表i名称:即二级基本表的标识和名称,一个逻辑数据库可包括多个二级基本表(i=l,2,n,二级基本表的标识主部与一级基本表标识相同,后缀可用字符串(汉语拼音或英文)表达;二级基本表名称,继承一级基本表名称再增加注明的缩略语;属性表:每一属性由数
12、据元素标识和数据元素名称表示,属性间用逗号分开;主键:用相应属性标识表示,多个属性标识用加号连接。例.“机构”和“员工”逻辑数据库的简化E-R图表达法:主键,机构代码(T机构基本信息RGN LD领导班子IORGN MM机构成员机构代码,机构名称,成立日期,人员总数,主健,机构代码+职务代码机构代码,职务代码,任命日期,员工代码,主健;机构代码+员工代码机构代码,员工代码IEMPL员工基本信息I主健:WL代仍PT人型”蛆员工代码,员工姓名,出生日期,学历代码,口UPlg舟丁福由主健,员工代码+起始日期EMPLRS员工同历员工代码,起始日期,结束日期,所在单位,EMPLTR培训记录主键,员工代码+
13、起始日期员.工代码,起始日期,结束日期,培训地点,培训课程,图5.1简化小图表达法1.6 信息资源管理基础标准的建设信息资源管理基础标准的建设,可以在信息资源规划过程中进行,并在相关的应用系统建设之前(或前期)完成。具体说,在对用户视图做调研和规范化分析时,从用户视图的组成中,就可以提取数据元素和识别信息分类编码对象,这实际上就开始了用户视图、数据元素和信息分类编码的标准化工作;而按业务主题对用户视图分组,识别定义概念主题数据库,进而细分概念主题数据库为一组基本表,这实际上就开始了概念数据库和逻辑数据库的标准化工作。这就是说,不需要脱离信息资源规划工作,另组织一些人去专搞数据标准化工作;参与信
14、息斐源规划、开始做起数据标准化工作的人员,在应用开发之前、或前期继续做好数据标准化工作,并作为数据管理员一直支持应用开发和维护工作,将是最有效的数据标准化建设队伍的组建思路。图5.2为信息资源管理基础标准框架,其中的数字只是一般企业的预研估计值,具体数值将在信息资源规划实施过程中给出。数据元素标港(Data Element)4000信息分类端口(In MnlaUOn Classi fin and Coding) o 02400 O逻辑较据库标准(Base Tabk)S 4。I lr概念数据摩标准(Subject Database)O 50畲用户视图标准j1(UServieW)L-J2000图5
15、.2信息资源管理基础标准示例该套数据标准化体系,需要分三个阶段逐步建设:第一阶段:信息资源规划需求分析时,重点识别数据元、信息分类编码对象和用户视图规范化;第二阶段:信息资源规划系统建模时,重点完成概念数据库和逻辑数据库标准;第三阶段:信息工程实施方案研发时,重点完成五部分标准规范的关联性分析和整体优化,并在后续数据库和应用软件工程实施过程中进一步调整优化完善。1.7 非结构化数据的存储与处理标准随着信息化手段的日益丰富,支撑应用的数据形式也越来越多样化,不仅有传统的结构化数据,还出现了大量非结构化数据、半机构化的数据。结构化数据,简单来说就是关系数据库。比如企业ERPx财务系统;医疗川5数据库;教育一卡通;政府行政审批等待。非结构化数据,包括视频、音频、图片、图像、文档、文本等形式。具体来说,如医疗影像系统、教育视频点播、视频监控、国土GIS、文件服务器(PDM/FTP)等具体应用。半结构化数据,是介于完全结构化数据和无结构数据之间的一种数据类型。半结构化数据虽然有一定