数 据 治 理 服 务
解 决 方 案
目录
一、数据治理概述
(一) 数据治理概念
数据治理是指将数据作为组织资产围绕数据全生命周期而展开的相关管控活动、绩效和风险管理工作的集合,以保障数据及其应用过程中的运营合规、风险可控和价值实现。
数据治理体系是指从组织架构、管理制度、IT应用技术、绩效考核等多个维度对组织的数据架构、元数据、数据质量、数据标准、数据安全、数据生命周期等各方面进行全面的梳理、建设并持续改进的体系。
(二) 数据治理目标
结合当前行业组织信息化发展过程中数据业务相关的应用需求,以“风险可控、运营合规、价值实现”为数据治理总体目标:
1) 运营合规:
组织应建立符合法律、规范和行业准则的数据合规管理体系,并通过评价评估、数据审计和优化改进等流程保证数据的合规性,促进数据价值的实现;
2) 风险可控:
组织应建立、评估数据风险管理机制,确保数据风险不超过组织的风险偏好和风险容忍度,评估、指导和监督风险管理的实施;
3) 价值实现:
组织应形成统一的数据驱动和数据价值理念,完善价值实现相关要素的定义、应用、调整,助力组织加快实现数字化进程。
数据治理管控目标是提高组织数据的质量(准确性和完整性),保证数据的安全性(保密性、完整性及可用性),推进数字资源在组织各机构部门间的高效整合、对接和共享,从而提升组织整体数字化水平,充分发挥数据资产价值。
二、数据治理需求分析
数据资产意识在各组织机构中已经得到充分的认可,但目前各组织单位对数据资产的管控状况依旧不容乐观,制约了组织数据质量的进一步提高,同时也限制了数据价值的实现。根据行业信息化与数据治理发展现状,各组织单位现阶段对数据治理的需求主要存在以下五大方面:
1) 需要专门对数据治理进行监督和控制的组织。
信息系统的建设和管理职能分散在各部门,致使数据管理的职责分散,权责不明确。组织机构各部门关注数据的角度不一样,缺少一个组织从全局的视角对数据进行管理,导致无法建立统一的数据管理规程、标准等,相应的数据管理监督措施无法得到落实。组织机构的数据考核体系也尚未建立,无法保障数据管理标准和规程的有效执行。
2) 需要规范统一的数据标准和数据模型。
组织机构为应对迅速变化的市场和社会需求,逐步建立了各自的信息系统,各部门站在各自的立场生产、使用和管理数据,使得数据分散在不同的部门和信息系统中,缺乏统一的数据规划、可信的数据来源和数据标准,导致数据不规范、不一致、冗余、无法共享等问题出现,组织机构各部门对数据的理解难以应用一致的语言来描述,导致理解不一致。
3) 需要规范统一的主数据。
组织机构核心系统间的人员等主要信息并不是存储在一个独立的系统中,或者不是通过统一的业务管理流程在系统间维护。缺乏主数据管理,使得主数据在整个业务范围内保持一致、完整和可控无法保障,从而无法保证数据的准确性。
4) 需要统一集团化的数据质量管控体系。
当前现状中数据质量管理主要由各组织部门分头进行;跨部门跨机构的数据质量沟通机制不完善;缺乏清晰的跨部门跨机构的数据质量管控标准与规范,数据分析随机性强,存在业务需求不清的现象,影响数据质量;数据的自动采集尚未全面实现,处理过程存在人为干预问题,大多数部门存在数据质量管理人员不足、知识与经验不够、监管方式不全面等问题;缺乏完善的数据质量管控流程和系统支撑能力。
5) 需要基于数据全生命周期的治理。
目前,大型集团或政务单位,数据的产生、使用、维护、备份到过时被销毁的数据生命周期管理规范和流程还不完善,不能确定过期和无效数据的识别条件,且非结构化数据未纳入数据生命周期的管理范畴;无信息化工具支撑数据生命周期状态的查询,未有效利用元数据管理。
三、数据治理体系建设
组织构建数据治理体系主要围绕数据治理核心域、数据治理管控机制、IT工具支撑、数据治理管控宣介以及数据治理实施路线规划五个方面展开。具体内容及相互关系参见下图:
数据治理体系框架
(一) 数据治理管控机制
1 数据治理组织
1.1 组织架构
有效的组织架构是项目成功的有力保证,为了达到项目预期目标,在项目开始之前规划符合组织当前数据治理理念的组织架构和职责分工是非常必要的,如建立数据治理委员会、数据管理委员会、数据管理团队、数据质量团队、数据安全团队、数据技术团队等。一般建议组织采用如下图所示的组织架构:
1.2 组织层次
数据治理委员会由组织高层领导者组成。委员会定义数据治理愿景和目标;组织内跨业务部门和IT部门进行协调;设置数据治理计划的总体方向;在发生策略分歧时进行协调。委员会也将包含来自部门或子公司的领导代表,以及来自数据为组织资产的信息科技部门代表。这些高层管理人员是数据治理计划的所有拥护者,确保在整个组织内获得支持。
数据治理工作组是组织内委员会下面的下一个级别。工作组执行数据治理计划。工作组负责监督数据管理员工作。数据治理工作组由数据治理委员会中各局领导主持。
每各业务部门有至少一位业务分析员,信息科技部门设置数据质量分析员、数据管理员、集成开发人员。各工作人员负责本部门数据的质量,履行职责,解决具体的问题。
1.3 角色职责
根据数据管理工作的实际需要,在业务管理部门、技术管理部门和业务应用部门确定各工作人员的职责。
数据治理委员会职责范围:
1) 从战略角度来统筹和规划,对数据资产和系统进行清理,确定数据治理的范围;明确数据源的出处、使用和管理的流程及职责;
2) 明确数据治理的组织、功能、角色和职责;
3) 负责各工作组成员的培训工作;
4) 负责审查各工作小组的目标、原则,批准数据管理的相关制度、标准及流程;
5) 负责确定数据治理的工具、技术和平台;
6) 负责制定数据治理的评估指标、方法。
数据治理工作小组,其主要工作职责是:
1) 负责数据治理的牵头,组织、指导和协调组织的数据治理工作;
2) 综合数据治理管控办法、数据治理考核机制等有关规章制度的牵头制定、修改等;
3) 负责数据的分析整理并出具数据指标报告;
4) 负责数据的监测预测工作;
5) 建立数据冲突的处理流程和数据变更控制流程;
6) 负责对基础数据质量的检测、发布、考核和清理完善工作。
工作组成员:业务分析员、数据质量分析员、数据管理员、集成开发员
这些不同的角色在数据治理过程中承担着彼此不同,而又相辅相成的职责。
集成开发人员在数据治理流程中需要肩负起数据访问、验证数据结构、验证数据、交付数据以及数据库/知识库的构建等角色,其主要工作职责作包括:
1) 访问及交付相应数据给业务用户;
2) 提高生产力和性能;
3) 最大化减少异常/出错的影响;
4) 开发和完善技术最佳实践。
数据质量分析员在数据治理流程中负责数据的剖析、清洗匹配合并等,其主要工作职责作包括:
1) 为开发人员定义数据规格及标准;
2) 为机构有效的追踪数据质量问题;
3) 实施被业务人员和数据管理员定义正确的数据质量规则;
4) 不间断的监控数据质量水平及问题。
业务分析人员在数据治理流程中负责定义数据的转换规则,其主要工作职责作包括:
1) 与需求开发人员协作,正确捕获和解析业务需求;
2) 与开发人员和数据管理员协作,为业务用户缩短数据产生价值的时间。
数据管理员需要定义引证数据,并管理元数据,其主要工作职责作包括:
1) 保证数据的质量、正确、完整、一致、审计及安全性;
2) 定义引证/参考数据;
3) 为组织机构数据实体给出正确业务定义;
4) 为组织机构解决混淆和有争论的数据定义。
2 制度章程
1.1 规章制度
数据治理章程类似于企业的公司条例,该章程用以明确数据治理相关战略规划、合规管理和控制、标准和规范,如《数据治理工作管理办法》,加强组织数据治理管理能力,满足组织数据治理的要求,统一数据标准,提高数据质量,深化数据应用,支撑业务发展,提升管理水平及合规监管要求。
具体可参见附件A 数据治理管理办法。
1.2 管控办法
数据治理管控办法是基于规章制度与工具的结合,可落地的操作的办法,用以完善数据管控相关的规章制度起草、审核、落实、监督的部门和管控机制,明确各数据管理活动的人员角色和职责、管理内容和相关流程,一般组织会设置《数据标准管控办法》、《数据质量管控办法》、《数据质量评估办法》、《元数据管控办法》等。
具体可参见附件B 数据质量评估办法
1.3 考核机制
考核是保障制度落实的根本,建立明确的考核制度,实际操作中可根据组织情况,建立数据治理管控相关的考核指标、制度和办法,不断优化相关机制。一般组织都会针对数据标准管理、数据质量管理、元数据管理等核心治理域设置相关的考核机制与指标,并与个人绩效相关联。
对于数据质量的考核,可参见下图:
3 管控流程
数据管控流程是基于数据治理各核心领域的工作目标,在数据治理组织下,明确各参与方的工作步骤、工作任务以及流转方向。数据治理流程的设立是数据治理核心领域内容得以贯彻执行的基础,通过将数据治理任务进行分解,最大程度提高数据治理的执行效率,降低管理成本。
数据治理管控流程包括流程目标、流程任务、流程分级,根据数据治理的内容,建立相应流程,且遵循组织数据治理的规则制度。实际操作中可结合所使用的数据治理工具,与数据治理工具供应商进行协商,建立符合组织的流程管理。
数据管控流程的设计应从组织实际出发,充分考虑组织的业务特点、管控模式以及数据管控的应急响应,同时将数据管控流程固化在相应的管理工具或平台,实现各数据管理流程的自动化、可视化和实时监控。
具体可参见附件C数据质量管控流程。
(二) 数据治理核心域
1 数据架构管理
数据模型是数据构架中重要一部分,包括概念数据模型、逻辑数据模型和物理数据模型,是数据治理的关键、重点。理想的数据模型应该具有非冗余、稳定、一致、易用等特征。逻辑数据模型能涵盖整个组织的业务范围,以一种清晰的表达方式记录跟踪组织的重要数据元素及其变动,并利用它们之间各种可能的限制条件和关系来表达重要的业务规则。数据模型必须在设计过程中保持统一的业务定义。为了满足将来不同的应用分析需要,逻辑数据模型的设计应该能够支持最小粒度的详细数据的存储,以支持各种可能的分析查询。同时保障逻辑数据模型能够最大程度上减少冗余,并保障结构具有足够的灵活性和扩展性。物理数据模型是逻辑数据模型在数据库中的具体实现,是数据库系统中实际数据的定义或主机文件系统中的文件结构定义,内容包括数据库内所有的表、视图、字段及其相关主键和外键的定义,以及系统内数据流向及系统间的数据交换关系。
2 元数据管理
元数据是关于数据的数据,描述了数据定义和属性。主要包括业务元数据、技术元数据和管理元数据。元数据管理的目的是厘清元数据之间的关系与脉络,规范元数据设计、实现和运维的全生命周期过程。有效的元数据管理为技术与业务之间搭建了桥梁,为系统建设、运维、业务操作、管理分析和数据管控等工作的开展提供重要指导。元数据管理的内容主要包括元数据获取、元数据存储、元数据维护(变更维护、版本维护)、元数据分析(血缘分析、影响分析、实体差异分析、实体关联分析、指标一致性分析、数据地图展示)、元数据质量管理与考核等内容。
3 数据标准管理
数据标准是组织建立的一套符合自身实际,涵盖定义、操作、应用多层次数据的标准化体系。数据治理对标准的需求可以划分为三类,即基础类数据标准、指标类数据标准和专有类数据标准。基础类数据是指组织日常业务开展过程中所产生的具有共同业务特性的基础性数据。基础数据可分为客户、资产、协议、地域、产品、交易、渠道、机构、财务、营销等主题。指标类数据是指为满足组织内部管理需要及外部监管要求,在基础性数据基础上按一定统计、分析规则加工后的可定量化的数据。专有类数据标准是指公司架构下子公司在业务经营及管理分析中所涉及的特有数据。
4 数据质量管理
数据质量不高将影响数据应用程度。数据质量管理包含对数据的绝对质量管理、过程质量管理。绝对质量即数据的准确性、完整性、一致性等是数据本身应具有的属性。过程质量即使用质量、存储质量和传输质量。
高质量的行业数据至少应满足以下要求:
一是准备性,在转换、分析、存储、传输、应用流程中不存在错误;
二是完整性,数据库应用或要求的所有记录、字段都存在;
三是一致性,体现在整个数据库的定义和维护方面,确保数据在使用的整个过程中是一致的;
四是时效性,衡量指标是在指定的数据与真实的业务情况同步的时间容忍度内,即指定的更新频度内,及时被刷新的数据的百分比;
五是可靠性,提供数据的数据源必须能够可靠稳定地提供数据。
数据质量管理的规划和实施应至少包括以下内容:
一是数据质量管控体系的建立,包括数据质量的评估体系,定期评估数据质量状况;
二是在部门各个应用系统中的落实,包括每个应用系统中的数据质量检查等;
三是在最开始建立数据质量管理系统的时候,借助数据治理平台上,通过建立数据质量管理的规则来集中化地建立数据质量管理系统,发现问题并持续改进;
四是数据质量管理与业务稽核的结合,通过业务规则的稽核来发现数据质量深层次的问题,将数据质量与业务一线结合起来,使业务人员对数据质量问题有更加清晰和明确的认识。
完善的数据质量管理是保障各项数据治理工作能够得到有效落实,达到数据准确、完整的目标,并能够提供有效的增值服务的重要基础。
5 主数据管理
主数据管理要做的就是从各部门的多个业务系统中整合最核心的、最需要共享的数据(主数据),集中进行数据的清洗和丰富,并且以服务的方式把统一的、完整的、准确的、具有权威性的主数据传送给组织范围内需要使用这些数据的操作型应用系统和分析型应用系统。
主数据管理的信息流应为:
1)某个业务系统触发对主数据的改动;
2)主数据管理系统将整合之后完整、准确的主数据传送给所有有关的应用系统
3)主数据管理系统为决策支持和数据仓库系统提供准确的数据源。
因此对于主数据管理要考虑运用主数据管理系统实现,主数据管理系统的建设,要从建设初期就考虑整体的平台框架和技术实现。
6 数据安全管理
由于组织的重要且敏感信息大部分集中在应用系统中,数据安全更是至关重要。如何保障数据不被泄露和非法访问,是非常关键的问题。数据安全管理主要解决的就是数据在保存、使用和交换过程中的安全问题。
数据安全管理主要体现在以下六个方面:
一是数据使用的安全性,包括基础数据的保存、访问和权限管理;
二是数据隐私问题,系统中采集的敏感信息在下游分析系统和内部管理系统中,是否要进行加密,以避免数据被非法访问;
三是访问权限统一管理,包括单点登录问题及用户名、数据和应用的访问授权统一管理;
四是数据安全审计,为数据修改、使用等环节设置审计方法,事后进行审计和责任追究;
五是制度及流程建立,逐步建立数据安全性的管理办法、系统开发规范、数据隐私管理办法及相应的应用系统规范、在管理决策和分析类系统中的审计管理办法等;
六是应用系统权限的访问控制,建立集团级权限管理系统,增加数字水印等技术在应用系统中的使用。
7 数据生命周期管理
数据生命周期管理一般包括数据生成及传输、数据存储、数据处理及应用、数据销毁四个方面。
(1)数据生成及传输
数据应该能够按照数据质量标准和发展需要产生,应采取措施保证数据的准确性和完整性,业务系统上线前应该进行必要的安全测试,以保证上述措施的有效性。对于手工流程中产生的数据在相关制度中明确要求,并通过事中复核、事后检查等手段保证其准确性和完整性。数据传输过程中需要考虑保密性和完整性的问题,对不同种类的数据分别采取不同的措施防止数据泄漏或数据被篡改。
(2)数据存储
这个阶段除了关注保密性、完整性之外,更要关心数据的可用性,对于大部分数据应采取分级存储的方式,不仅存储在本地磁盘上,还应该在磁带上,甚至远程复制到磁盘阵列中,或者采用光盘库进行存储。对于存储备份的数据要定期进行测试,确保其可访问其数据完整。数据的备份恢复策略应该由数据的责任部门或责任人负责制定,信息化管理部门可以给予相应的支持。同时还需要注意因为部门需要或故障处理的需要,可能对数据进行修改,必须在数据管理办法中明确数据修改的申请审批流程,审慎对待后台数据修改。
(3)数据处理和应用
信息化相关部门需要对数据进行分析处理,以挖掘出对于管理及业务开展有价值的信息,为保证过程中数据的安全性,一般应采用联机处理,系统只输出分析处理的结果。但是实际中,因为相关数据分析系统建设不到位,需要从数据库中提取数据后再对数据进行必要的分析处理,在这个过程中就需要关注数据提取操作是否可能对数据库造成破坏、提取出的数据在交付给分析处理人员的过程中其安全性是否会降低、数据分析处理的环境安全性等。
(4)数据销毁
这个阶段主要涉及数据的保密性。应明确数据销毁的流程,采用必要的工具,数据的销毁应该有完整的记录。尤其是对于需要送出外部修理的存储设备,送修之前应该对数据进行可靠的销毁。
8 数据服务管理
数据整合归集最终目的就是要服务于各机构部门、人员等,能更准确更快更方便的服务是数据服务管理的目标。
数据服务管理是指针对内部积累多年的数据,研究如何能够充分利用这些数据,分析行业业务流程优化业务流程。数据使用的方式通常包括对数据的深度加工和分析,包括通过各种报表、工具来分析运营层面的问题,还包括通过数据挖掘等工具对数据进行深度加工,从而更好的管理者服务。通过建立统一的数据服务平台来满足针对跨部门、跨系统的数据应用。通过统一的数据服务平台来统一数据源,变多源为单源,加快数据流转速度,提升数据服务的效率。
(三) IT工具支撑
1 支撑平台
数据治理平台/工具是支撑公司数据治理体系和制度办法在流程
上的执行落地,以最大限度地实现公司数据治理工作的自动化,提升数据治理能力和数据服务水平。
目前市场上关于数据治理平台存在不同的成熟产品,但在功能实现上大致相同,具体可参加下图了解。
数据治理平台总体架构
元数据管理功能架构
数据质量管理功能架构
数据标准管理功能架构
2 技术规范
技术规范是保障数据治理平台可持续管理的基础,随着数据量的增长、技术水平的发展,为更好、可持续的实现数据资产的管理、应用,需建立明确的技术规范。结合数据治理相关管控制度和流程,构建组织的数据技术规范,包括:数据应用研发规范、数据架构规范、门户数据整合规范、数据存储规范等。
3 选型标准
在数据治理体系建设和完善的基础上,调研分析数据治理产品和工具,结合组织实际应用需求,形成相关的数据治理产品选型标准和建议。
(四) 数据治理管控宣介
结合组织数据治理现状、数据治理体系建设、数据治理未来愿景、组织团队建设以及信息系统建设等,构建具有针对性的数据治理管控宣介方案,形成数据治理的全员意识,为组织数据治理的成功实施提供保障。
(五) 数据治理实施规划
数据治理是一项长期的复杂工程,其涉及面之广且深。为了更好地落实数据治理工作的开展,组织数据治理工作需要根据其当前的现状和水平分阶段的逐步开展,因此,有必要制定组织未来三年的数据治理实施路线图,明确数据治理实施路径,形成相关指引,为其IT战略和数据战略以及公司发展战略规划提供支撑。
规划方法可参考如下:
1) 结合组织数据成熟度评估现状、战略愿景、治理目标,考虑未来三年数据治理推进的重点工作;
2) 结合组织未来三年数据治理推进的重点工作,从IT投资、人力支持、重要程度和技术难度等维度开展数据治理实施的优先级分析,明确相关重点推进工作。
四、数据治理应用
(一) 证券行业数据治理应用
证券行业作为一个数据密集型行业,无论是传统线下业务还是新型的线上业务,其竞争的一个关键要素就是数据。随着证券行业信息化建设的不断深入,以及证券公司业务种类、范围等的逐渐延伸,使得IT系统产生的数据量以惊人的速度增长,面对巨大的数据规模,证券公司如何在监管报送和信息披露、风险控制、决策支持、精准营销、产品定价、绩效考核等各方面得到准确、及时、完整的数据支持,使其发挥价值是当前证券公司必须考虑的重要问题。
1 产品创新中的数据治理
1.1 背景介绍
企业普遍通过对IT系统建设生命周期中的主要环节,如业务需求、系统设计、测试上线等环节,运用数据标准或数据模型等工具,进行系统层面的管控,以数据规范性在信息系统的提升为主要目标。然而在实际推进过程中,往往遇到“数据治理与业务创新脱节”、“数据生产与应用脱节”、“信息化建设与业务规范管理的脱节”、“缺乏从业务维度对数据质量问题的分解手段”等挑战。
2.2 场景描述
为解决这一困境,建议组织将数据治理管控扩展到产品管理领域,以业务规范定义为源头,将数据生命周期和产品管理流程相结合,借助产品目录、业务台账规范和数据标准等工具,通过产品识别、产品信息要素梳理、数据标准定义、数据标准落地等治理活动进行数据治理管控,形成产品创新阶段中数据治理的有效管控。流程如下图所示:
2 授信业务中的数据治理——调整
1.1 背景介绍
证券公司客户授信首先来源于银行的信贷管理,由于贷款人信用状况多维性和复杂性,银行通常无法准确快速判断每个贷款人的信用情况,为全面获得客户的征信信息,对于证券公司来说,非常重要。汇聚客户线上线下数据,包括消费数据、行为数据等,作为贷款客户的重要征信依据,有利的支撑贷款授信业务,从而降低证券公司的风险。
2.2 场景描述
某证券公司与银行、移动公司合作推出了手机贷业务,通过手机贷APP终端,可方便的进行无抵押小额贷款。流程如下图所示:
1) 用户在得到手机贷业务的宣传后,下载安装并实名注册手机贷客户端。
2) APP进行注册后,手机贷APP进行授信请求的推送。
3) 用户同意授信后,APP后台发送数据请求到移动大数据平台。
4) 大数据平台以该手机号码为关键字,进行用户相关信息的采集和解析。
5) 采集后的数据通过数据标准化要求进行数据预处理,通过标准化处理和元数据的约束形成标准化数据。
6) 标准化数据经过平台数据数据定价和评估模型,产生有价值的数据资产。
7) 数据资产通过预先配置好的数据质量检查规则,形成待服务数据。
8) 满足数据质量要求的数据资产经过平台相应数据安全机制验证,产生评估结果。
9) 满足评估结果的用户会收到APP的相应推送消息,用户可进行后续的贷款预约和准备,贷款结束。
3 风险管理中的数据治理——调整
1.1 背景介绍
随着我国监管改革持续推进,监管部门对证券行业风险管理工作提出了更高标准的要求,2016年12月,中证协在《证券公司全面风险管理规范》、《证券公司风险控制指标动态监控系统指引》等文件中明确提出“建立健全数据治理和质量控制机制”、“制定数据标准,涵盖数据源管理、数据库建设、数据质量监测”等合规要求。目前,证券公司在风险管理方面主要存在以下不足:风险计量数据基础完备性不足、风险计量模型表现有效性不足、风险计量结果应用充分性不足等问题,亟需全面建设数据驱动型风险管理体系。
2.2 场景描述
为了全面满足新形势下对证券公司全面风险管理的要求,证券公司需要在前期工作的基础上,进一步提升对风险数据、模型、系统以及人员的管理能力,全面建设数据驱动型风险管理体系。以构建深化风险管理中的数据治理管控机制为抓手,实现风险数据的统一视图,并通过统一的数据服务和管理,确保数据的完整性和准确性,从而提升风险管理效率。流程如下图所示:
五、附录
(一) 附录A 数据治理工作管理办法
为逐步提高数据资产利用效果,推动信息化建设向标准化、信息化和数字化方向发展,数据治理应遵循以下原则:
(1)统一规范。数据标准要严格执行组织的统一标准。
(2)分级管理。实行分层级的数据管理模式,明确职责分工,层层落实责任。
(3)过程控制。建立数据从采集、报送、审核到应用、维护全过程的控制规范,保证数据质量,提高应用效果。
(4)保障安全。建立数据访问的身份验证、权限管理及定期备份等安全制度,规范操作,做好病毒预防、入侵检测和数据保密工作。
(5)数据共享。整合应用系统,做到入口唯一,实现数据一次采集,集中存储,共享使用。
数据治理的规范工作包括:数据标准、数据采集、数据审核、数据维护、数据分析、数据应用、数据发布、数据传输、数据存储(备份、恢复)、数据安全管理、数据质量监控、数据管理考核等。
(一)数据标准
第一条组织数据必须按统一制定的数据标准和代码规范执行。
第二条在数据采集工作中,组织依据制定的标准进行数据的采集录入、审核修正、数据质量监控和管理考核,确保数据质量。
第三条数据指标的设定和修改必须严格执行软件的管理规定和程序。数据治理管理小组根据业务管理部门的需求,及时制定(修改)数据采集的技术规范,包括数据采集格式、权限设定和方法步骤等,并按时向业务管理部门通报所采集数据的指标内容变化情况,以便业务部门根据采集到的指标提出数据加工需求。
第四条数据指标的确定应以有效实用和优化服务为目标,不断提高数据集中度和信息共享度,科学归并各项业务的同类、同属性指标,避免业务部门重复上报数据。
(二)数据采集
第一条数据采集重点是原始数据的采集,原始数据主要包括业务部门通过纸质资料报送的数据,通过电子传输报送的数据(含电磁介质报送的数据和网络传输报送的数据,下同);相关部门通过纸质、电子传输提供的数据;管理业务处理结果(检查、调查、核实、认定、审批等)产生的数据。
第二条数据采集主要依靠应用系统进行录入(导入),现用应用系统不能满足数据采集需要的,通过相关系统的补录模块进行数据录入(导入)。
第三条数据采集方式分为手工采集、数据电文导入和光学字符识别(OCR)、图形扫描等其他方式。
为保障数据采集的质量,提高数据采集的效率,应充分应用信息化技术,最大限度地减少手工录入。
第四条为提高数据录入质量,组织各有关机构部门要认真执行资料数据的核对制度,严格以原始资料为依据,确保录入数据的一致性和准确性。数据采集录入前,操作人员应先将准备录入的原始资料或有关表证单书进行完整性、逻辑性、真实性审核,发现漏填、错填和逻辑关系不符的,应于做出修正或补正;
第五条对通过电子传输方式报送数据的,数据必须通过接收软件相应设置的完整性、逻辑性审核。
第六条各部门机构应建立纸质数据和电子数据的核对制度,明确职责分工和工作程序,落实岗位责任,发现问题及时处理。
第七条对于未规定的数据采集标准规范,组织相关责任部门应根据不同的数据采集岗位和软件覆盖面,细化工作职责,量化作业标准,结合业务操作规程,建立统一的数据采集录入操作规范和管理制度。数据采集规范应包括数据来源、采集时间、操作岗位、操作步骤、操作内容和采集内容的逻辑校验等要素。
第八条各级数据采集人员应强化数据质量意识,熟练掌握正确的采集和审核方法,按照部门职责分工,严格按照相关操作规范采集各类数据。
第九条任何人不准擅自委托他人以本人用户名录入数据。确因工作需要委托他人以自己名义录入的,必须报经主管领导批准,并及时更改口令。
(三)数据审核
第一条数据审核是确保数据质量的重要环节。审核的重点是数据的及时性、完整性、真实性、准确性和规范性。
(1)及时性是指数据要在规定的时间内采集,确保应用系统数据与实际业务同步;
(2)完整性是指数据采集应按照有关规定及相应表、证、单、书采集的要求进行,不得缺表或漏项,杜绝数据的机外操作和循环;
(3)真实性是指数据采集要如实反映组织管理实际,以合法、真实的原始资料为依据,不得随意捏造;
(4)准确性是指数据采集应准确反映组织管理实际,与纸质资料数据一致,数据之间逻辑相符,不得出现运算错误或逻辑错误;
(5)规范性是指数据采集应按照统一的业务标准及技术规范进行。
第二条各部门及相关岗位人员按照自身工作职责范围,负责相关数据的日常审核。
第三条为加强数据质量管理,省厅建立数据审核制度,数据管理员定期或不定期对已采集数据进行审核。对审核中发现的数据质量问题应及时反馈至具体的原始数据采集岗,限期补录修正。
第四条各部门机构可采取人工抽样、数据软件检测等方式进行数据审核。对检索出不符合标准的数据,反馈至原数据采集岗进行补录修正。在数据应用环节发现的数据采集差错,应通过相关业务管理部门的数据管理员进行审核确认,然后反馈至原数据采集岗进行变更修正。
第五条审核中发现的差错应及时通知相关部门。
第六条数据审核岗人员与数据采集岗人员对数据问题有异议的,由上级业务主管部门负责对争议事项做出裁定。
(四)数据维护
第一条数据维护包括对数据中错误数据的修正、不完整数据的补充、垃圾数据的清理及历史数据的迁移等。
第二条各业务管理部门应结合各应用系统制定详细的数据维护工作制度,明确数据维护的权限、职责,严格按照工作制度进行数据维护。已经进入应用系统的数据,不得擅自修改、删除。
第三条对错误数据的修正和不完整数据的补充,组织统一按以下程序处理:
(1)对尚未录入应用系统或已录入尚保留修改权限的数据,需修改的,可由前台原数据采集岗根据审核意见纠正后重新录入(或直接纠正);
(2)对已录入应用系统的数据,经审核发现错误,前台原数据采集岗已无权限修改的,应根据具体业务工作流程和要求实行层级审批修正。
第四条对已录入应用系统需层级审批修正的数据,信息部门有权限处理的,应由数据修正申请机构部门及时提出数据修正申请,报数据所属系统的责任部门审核审批。
对经确认不能予以修正的,有权修正单位应及时向申请单位或相关人员说明原因。
第五条对需由数据中心办理的数据修正事项,应由申请部门机构及时提出数据修正申请,分别报相关责任部门审批。数据中心在接到同意修正的申批后办理。
对经确认不能予以修正的,有关单位应及时向数据修正申请单位及有关人员说明原因。
第六条对不按规定程序上报审批的数据修正申请,各部门机构数据管理的技术管理团队不予以修改。
第七条对经查实,属有关单位弄虚作假、人为调整指标等主观因素造成其无法自行恢复的数据错误,各部门机构数据管理的技术管理团队有权不予修正,并向相关责任部门报告。
第八条各部门机构数据管理的技术管理团队应按照系统初始维护设置和上级部门分配的权限实施数据修正业务。执行过程中如遇权限调整,各部门机构数据管理的技术管理团队应在权限变动后十五日内向相关责任部门公告通知。
第九条数据维护前应做好相应备份工作。数据维护工作应严格备案,对每项数据维护的内容、时间、维护原因、责任人等进行详细记录,涉及的书面材料必须登记存档。
第十条应用系统因数据平台转换、系统升级等原因需对历史数据转储、迁移的,由信息技术部门会同业务管理部门确定历史数据的处理方法,保证新旧数据的衔接和系统的平稳过渡。
第十一条信息技术部门应加强对数据的监控,定期检测数据的存储,分析数据的构成,提出数据清理优化的方案,经业务管理部门确认后,定期进行垃圾数据的清理。垃圾数据主要指过期的、重复的、没有使用价值的数据,不包括按规定应保留的历史数据。
(五)数据分析
第一条数据分析是采取科学合理的方法,利用现代信息技术手段,对计算机应用系统生成的数据进行分析,充分发掘数据中蕴涵的信息,形成有用指标数据值的过程。
第二条数据分析一般按照选题—分析—应用—反馈—再选题的方式进行,积极研究、探索科学实用的分析方法,同时依据数据应用过程中暴露出的问题,改进数据管理方法和手段,促进数据管理质量不断提高。
第三条数据分析分为固定分析和专项分析两种。固定分析指标在一定时期内相对固定,通过编制应用软件自动生成。专项分析的选题指标根据组织所处行业的新形势和新问题专门设计,临时从前台或后台抽取相关数据进行分析处理。
第四条各部门机构应充分利用数据资源,规范数据分析程序,积极探索数据获取、加工、计算、展现等过程的规律,不断探索和创新数据分析方法,提高数据分析质量。
(六)数据应用
第一条数据应用分为直接使用和加工后使用。数据加工是指根据工作需要,用数理统计、多维分析等科学方法对数据进行抽取、汇集、归类、挖掘、比对,并以报表、图形、文字等形式展现数据处理结果。
第二条各部门机构应充分利用数据资源,深化数据应用,用数据描述现状,预测趋势,规范执法,加强管理,优化服务,提供决策支持。数据应用的任务一般包括:
(1)整合应用系统的数据,建立数据关联关系,满足各级、各部门、各岗位业务管理的需要。
(2)分析行业管理现状,研究存在问题,提出改进措施,提高管理水平,规避管理风险。
(3)监控执法过程,跟踪执法结果,检查执法质量。
(4)建立合理的指标体系,全面考核和监控各部门机构管理的工作质量和效率。
(5)统筹规划、合理分布数据,实现各类数据的全面共享,简化组织审批程序,优化数据服务。
第三条组织数据加工统一由数据中心承担,信息部门提供技术支持。业务管理部门有特殊需求时,报相关责任人批准后及时向数据管理中心提出,数据管理中心应及时提供已加工数据列表和数据使用授权,以保证各部门业务管理需要。
第四条数据加工分两个层次,一个层次是为满足日常业务需要,利用数据加工工具进行数据加工,供各部门日常管理使用,可直接展示数据处理结果;另一层次是满足评估分析和辅助决策等数据应用系统的需要,利用数据加工工具或专用软件对数据加工或进行系统间的数据衔接。
第五条数据中心负责数据加工软件的日常管理工作。
第六条数据使用单位和人员必须严格按照授权使用数据,负责管理组织、本人口令,不得越权使用数据;不得采取任何方法破坏数据;对所使用的涉密数据负有保密责任。
(七)数据发布
第一条数据发布是数据管理的重要内容。各部门机构必须建立数据发布制度,明确数据发布职责,依法发布数据。
第二条各部门机构对外公布数据必须报领导或分管领导批准后对外公布,否则不得擅自对外公布和发布数据。
(八)数据传输
第一条各部门机构应针对各项数据传输工作,设置专门岗位,明确职责分工,制定相应考核制度。
第二条数据传输工作严格遵照相应的操作规程和时间要求,不得延误。由于特殊原因,数据发送方不能按时完成数据传输任务时,应及时通知数据接收方,双方应积极采取措施,恢复正常传输。数据传输完成,双方应及时进行数据对账。
第三条数据传输应当使用组织机构内部计算机网络完成,未经批准不得借助其它公共计算机网络平台进行数据传输。使用可移动载体进行数据传输的,传输完毕后,必须从载体上完全清除数据。
第四条各部门机构内部信息的传递,如任务下达、信息交换、调查统计、报表报送、成果报告、情况通报等,应采取电子数据传输方式。
第五条信息技术部门要定期检测网络运行状况,及时发现解决网络传输中的问题,确保数据传输网络畅通。
(九)数据存储、备份和恢复
第一条信息技术部门应加强对各类数据存储和备份的管理,以保障应用系统的正常运行,保存完整的历史数据。
第二条信息技术部门应定期对存储和备份的数据进行整理优化,以提高系统运行和数据处理的效率。
第三条各类数据由信息技术部门统一集中存储和备份。
第四条信息技术部门应根据不同类型数据的更新频率、数据量、重要程度、保存期限,制定相应备份、恢复策略和操作规范。
第五条已做备份的数据任何部门不得擅自更改。
第六条数据备份文件必须存储在非本机磁盘的其它介质中,建立登记制度,由专人保管,备份介质必须保存在符合条件的环境中,对应用系统中存储时间长、使用频度低的历史数据,可按有关规定予以结转、存储,长期妥善保管,并随时可供调取应用。重要数据应异地存放。
第七条数据备份文件应定期进行恢复测试,以确保所备份的数据能够及时、准确、完整地恢复。
(十)数据安全管理
第一条数据管理中心应建立健全数据安全管理制度和办法。数据安全管理的内容包括:数据访问的身份验证、权限管理及数据的加密、保密、日志管理、网络安全等。
第二条为统一规范操作权限,各部门机构操作人员的录入权限、访问权限、维护权限应先由各业务管理部门按照部门、岗位的职责分工,提出权限设定规则,报数据管理领导小组批准后由信息技术部门予以维护,任何人不得擅自设立、变更和注销。
第三条各类应用系统的使用必须实行用户身份验证。应用系统应按规定设置相应的用户名、密码,并按不同权限级别,对用户口令加密保护。操作人员应注意自己用户名和口令的保密,并定期或不定期修改口令。
第四条数据安全实行专人负责制。信息技术部门要指定专人负责系统数据及磁介质资料的安全管理工作。对数据库的管理实行数据库管理员制度,制定和明确管理员用户和数据查询用户的操作权限及规程,关键数据库管理岗位应设两人或两人以上。
第五条对涉密数据的传输、存储,应严格按照相关规定进行加密处理。
第六条对各类数据应严格执行保密制度,不得泄漏。对涉及从业人员隐私而未征得本人同意或按有关保密规定不能公开的数据,不得对外公开,也不得用于业务以外的其它目的。
第七条对数据的各项操作应实行日志管理,严格监控操作过程,对发现的数据安全问题,要及时处理和上报。
第八条各部门机构要加强网络安全管理,采取严格措施,做好计算机病毒的预防、检测、清除工作,防止各类针对网络的攻击,保证数据传输和存储安全。管理员用户应掌握和运用数据库访问跟踪布控技术,加强对数据库的核查与监控。
第九条对需要长期保存的数据磁带、磁盘,应在质量保证期内(一般为一年)进行转储,以防止数据失效造成损失。
第十条系统维护和数据管理责任单位应当采取以下措施,保证信息系统应用数据的安全:
(1)明确岗位职责,严格操作规范,完善内部控制;
(2)加强应用系统的运行维护,定期进行数据备份;
(3)实时监控数据库的访问情况,定期审核和更新数据库的口令等。
(十一)数据质量监控
第一条数据质量监控是数据管理中心以组织业务规程为基础,通过建立数据质量指标体系和设置过错类别,运用一定的手段和方法,对一定时期的数据质量进行检查、认证、鉴定与评价等一系列管理活动。
第二条数据质量监控应按照分途采集、集中比对、管住增量、强化责任的原则,对数据采集和处理的真实性、准确性、完整性、合法性、逻辑性、及时性进行监控。
第三条组织各系统建立数据质量监控联动机制,实行数据管理中心、基层数据管理员监控联动。
(1)数据管理中心负责组织全部范围的数据质量监控,定期或不定期发布数据质量监控检测结果。
(2)数据管理中心负责组织全部范围的数据质量监控,定期或不定期发布全市、区数据质量监控检测结果,指导相关部门落实数据质量监控检测结果。
(3)基层数据管理员负责督导落实数据质量监控检测结果。
第四条数据管理中心应建立相应的数据质量监控机制,采用人机结合等方式,以一定形式对数据质量实施监控审核,并及时发布监控结果。
第五条数据管理中心应于年度开始10日内制定年度数据质量监控检测计划,经相关领导、责任人批准后有计划开展全年数据质量监控检测工作,并报送备案。
第六条数据管理中心负责对数据质量监控发现的问题数据限期督导相关部门机构完成修正,一般最长要求5日内完成,并将修正结果报送审核。
第七条对数据质量监控发现的问题数据严格按照本办法数据维护规定的程序开展修正工作,任何人不得擅自修改。
(十二)数据管理考核
第一条数据管理是组织信息化建设的重要内容,数据质量直接关系到组织信息化的应用效果。各部门机构应根据本办法所涉及的内容制定具体的数据管理考核办法,建立切实有效的数据管理考核奖惩机制。
第二条数据管理考核应遵循客观公正、公开透明的原则。各级可采取日常考核和定期考核相结合、人工抽检考核和机器全面检测相结合的方法,强化数据管理考核。组织应对数据管理工作实施百分制考核,主要考核项目包括:
(1)组织机构是否健全,岗位职责是否明确;
(2)数据录入是否及时,数据采集是否完整;
(3)数据内容是否准确,抽取展示是否按时;
(4)审核差错是否修正,数据维护是否及时;
(5)管理机制是否建立,安全措施是否到位。
第三条数据管理考核办法应突出数据录入、审核、维护、备份、安全等重点环节,进行指标量化。依据标准,对必录项的考核指标,在采集录入环节,其及时率、准确率、完整率必须达到95%以上;经过审核、修正后,其“三率”的考核指标应达到99%以上。
第四条各部门机构和部门人员发生下述行为之一的,组织应根据其危害程度、过错大小、情节轻重等,依据执法责任制和目标管理责任制追究相应责任:
(1)数据录入不及时,造成下一环节工作延误的;
(2)数据录入不规范、差错率连续居高的;
(3)未认真履行数据审核职责,造成大量数据差错不能及时纠正的;
(4)未及时进行数据维护,造成应用环节数据严重失真的;
(5)未按规定存储和备份数据,造成数据丢失的;
(6)未按规定进行系统维护,或因过失引发信息系统运行障碍造成数据丢失的;
(7)未按规定实施安全管理防范措施,造成计算机系统瘫痪或病毒侵害严重,严重影响数据传输和存储的;
(8)未按规定执行保密制度,发生重大泄密事件的;
(9)擅自对数据、权限进行修改、删除,或擅自使用他人的用户名、密码进行操作访问的;
(10)其他过错行为。
对有意破坏、恶意攻击税收应用信息系统,造成重大损失,涉嫌刑事责任的,移送司法机关处理。
(二) 附录B 数据质量评估办法
下面将从数据质量评估核心指标、数据质量评估模式、数据质量评估管理流程三个方面介绍数据质量评估方法。
数据质量评估的核心指标
数据质量问题频率 指标定义:数据质量问题频率=数据质量问题发生次数/存储的总数据量 指标单位:次/GB |
根据数据质量评估指标将各数据仓库中的主数据及其历史行为划分为三个等级:
数据质量等级 | 描述 | 统计口径 |
一级 | 数据质量差,需要重点监控 | 数据质量问题频率大于等于1次/GB |
二级 | 数据质量一般 | 数据质量问题频率大于等于0.5次/GB,小于1次/GB |
三级 | 数据质量好 | 数据质量问题频率小于0.5次/GB |
通过对数据质量问题频率的考评和等级划分,就可以从数据仓库众多的数据中解放出来,集中精力把有限的资源投入到需要重点关注的主题数据。因此数据质量可信等级是数据质量提高的有效途径。与之相配套的,必须建立了一套相关的管理制度,管理制度主要包括:
(1)可信等级初始值确立流程
数据中心平台各主题域的数据质量可信等级初始值一般设定为一级,由数据质量管理小组牵头,执行全面检查后报数据中心主管部门批准后确立。
(2)可信等级变更流程
数据质量管理小组每季度、每年组织定时抽查、全面检查时,每半年根据检查结果对相关主题域的可信等级提出调整意见,报数据中心主管部门批准后确立。
数据质量评估具体方法:
对于具体数据的质量检查模式采用记录数检查法、关键指标总量验证法、历史数据对比法、值域判断法、经验审核法及匹配判断法。通过这些方法方法,可以对单个数据点的数据准确性进行检查,及时发现数据质量问题。
(1)记录数检查法
通过比较记录条数,对数据情况进行概括性验证。主要是检查数据表的记录数是否为确定的数值或在确定的范围内。
适用范围:
对于数据表中按日期进行增量加载的数据,每个加载周期递增的记录数为常数值或可以确定的范围时,必须进行记录条数检验。
(2)关键指标总量验证法
对于关键指标,对比数据总量是否一致。主要是指具有相同业务含义,从不同维度统计的汇总逻辑的检查。
适用范围:
同表内对同个字段从不同的维度进行统计,存在汇总关系时,必须进行总量检验。
本表的字段与其它表中的字段具有相同的业务含义,从不同的维度统计,存在汇总关系,且两张表的数据不是经同一数据源加工得到。满足此条件时必须进行总量检验。
(3)历史数据对比法
通过历史数据观察数据变化规律,从而验证数据质量。通常以同比发展速度进行判断。评估时应根据各种指标发展特点,重点对同比发展速度增幅(或降幅)较大的数据进行审核。历史数据对比法包括同比和环比两种方式。
适用范围:
不能进行记录数检查法、关键指标总量验证法,且事实表的记录数小于1000万条时必须进行历史数据对比法。
(4)值域判断法
确定一定时期内指标数据合理的变动区间,对区间外的数据进行重点审核。其中数据的合理变动区间范围是直接根据业务经验来确定的。
适用范围:
事实表中的字段可以确定取值范围,同时可以判定不在此范围内的数据必定是错误的。满足此条件必须进行值域判断法。
(5)经验审核法
针对报表中指标间逻辑关系仅靠计算机程序审核无法确认、量化,或有些审核虽设定数量界限,但界限较宽不好判定的情况,需要增加人工经验审核。
适用范围:
以上方法都不适用的情况下,可以使用经验审核法。
(6)匹配判断法
与相关部门提供或发布的有关数据进行对比验证。
适用范围:
与有相关部门提供或发布的有关数据口径一致的,可以使用匹配判断法。
(三) 附录C 数据质量管控流程
(一)数据质量校验流程
数据仓库每天都有很多ETL任务定时执行加载数据,确保ETL加载数据的完整性、准确性是数据质量管理的基本要求。
1)日常数据校验
数据质量管理人员每天要对ETL加载任务执行情况进行检查。
数据校验方法选择
ETL任务数据质量校验要求必须采用以下三类方法中的至少一种来进行判断:记录数检查法;关键指标总量验证法;值域判断法。
数据校验周期
每天ETL加载任务比较多,如果全部执行数据校验需要的时间过长,因此根据每个主题数据的可信等级确定校验频率。
可信等级与校验频率的对应关系如下:
一级:每次加载都必须执行数据校验
二级:每三次加载执行一次数据校验
三级:每六次加载执行一次数据校验
对于需要特别保障的主题数据,可调整校验频率并额外增加经验审核法。
2)定时数据抽查
数据校验确保每天加载的增量数据的完整性、准确性,在此基础上,数据质量管理小组必须每季度组织一次数据仓库的定期抽查。
定期抽查的范围必须包括可信等级为一级的所有主题数据,可信等级为二级的二个主题的数据,可信等级为三级的一个主题的数据。
定期抽查必须采用数据质量评估方法中定义的所有方法。
3)全面数据检查
数据质量管理小组必须每年组织一次数据仓库的全面检查。
全面检查的范围包括企业数据中心平台所有主题的数据。
全面检查必须采用数据质量评估方法中定义的所有方法。
(二)数据异常处理流程
(1)数据质量管理人员发现数据差错应及时核对核实,根据核对核实情况填写数据问题处理单,描述数据质量问题的现状、原因和改正、预防措施。
(2)数据质量管理小组组长审批后,报数据中心主管部门批准后执行数据修正任务。
(三)数据质量的评估报告
最终根据数据质量检查的情况,数据质量管理小组会定期或不定期的生成相关的数据质量评估报告,数据质量报告分为两类:
每月定期提交的数据质量报告,即每月数据质量问题的陈述。
数据质量抽查或全面检查后提交的数据质量报告。
1.每月数据质量评估报告
每月的数据质量报告是在每月月末或者下月月初时编制的月度执行报告,数据质量管理小组会对当月数据质量情况进行汇总统计,并根据“数据质量问题频率”的变化情况对各个主题的等级进行检查策略的调整,报告格式如下:
A、非系统问题
(1)数据质量问题的现象
(2)业务数据范围
(3)问题陈述
B、系统问题
(1)数据质量问题的现象
(2)业务数据范围
(3)问题陈述
2.数据质量抽查或全面检查后提交的数据质量报告
数据质量抽查或全面检查报告是在每次进行完整个企业数据中心抽查或全面检查后编制的质量报告,同每月数据质量报告相比,除了要统计数据质量情况并重新划分主题等级外,还需要对整个质量体系运作的情况进行评估和改进,报告格式如下:
A、基本概况
包括:参与数据质量检查的相关组织与人员;数据质量检查的时间;数据质量检查的地点;数据质量检查的形式;数据质量检查的范围等方面的内容。
B、数据质量的检查与评价
(1)评价过程与步骤
(2)数据检查方式
主要分为全部检查和抽查。全检必须说明检查的范围、内容及方法。抽查必须说明抽样方案、过程及数据检查的范围、内容及方法。
(3)数据质量评价方法
C、数据质量评述与结论
(1)评述
对数据质量进行的综合描述(包括存在问题)。
(2)结论与建议
包括检查结果、可信等级调整建议等。