数据治理在“大数据”成为热词后,更加被业界关注。大数据带来的一个显著变化是,大量数据来自于数据中心之外,包括笔记本电脑、平板电脑、智能手机以及传感器、社交网站等。数据量激增,数据类型也变得多样。数据散落在不同的系统中,哪些数据是可信的?数据是否面临更大的风险?如何从海量数据中获得洞察?大数据时代,企业更加需要数据治理。
“数据治理是目前一个比较新兴的、正在发展的学科,目前业界对它的定义还不完全一样。”IBM全球企业咨询服务部业务分析与优化团队副合伙人谢国忠说,数据治理(Data Governance)是围绕将数据作为企业资产而展开的一系列的具体化工作。数据是企业最大的价值来源,同时也是最大的风险来源,数据管理不佳通常意味着业务决策效果不佳以及更可能面临违规和失窃。而利用规则的可信数据有助于组织的业务创新提供更好的服务,提升客户忠诚度,减少合规及报表要求所需工作,并提升创新能力。
国内企业数据治理成熟度不高
“目前国内大部分企业在数据治理方面还处于基本管理阶段。”谢国忠评价说,“有些公司说做了很多数据质量检查,做了数据归档、数据安全,但他们的问题是没有一个完整的体系。其次,怎么把这些领域串起来,他们没有方法论。第三,他们在观念上还达不到把数据当做核心资产来运作。”因此,谢国忠认为国内企业首先需要一套完整的数据治理体系。
他认为国内企业数据治理方面存在误区:觉得数据治理是很短期的行为,认为数据治理只是IT部门的责任,只把数据治理当成软件。实际上,数据治理不光是软件,还要有相应的流程、方法。
谈到数据治理的实践,IBM自身就是数据治理的典型代表。1992年之前,IBM在数据治理方面存在很多问题,没有明确的可依赖的数据源,没有明确的数据所有人,数据质量低下。1995年,IBM在ERP里面做了业务数据标准,将所有的业务定了15大类业务标准、79个分类子业务标准,这样全公司看到的是一个统一的业务定义。2004年,IBM成立了数据责任人论坛,2005年成立了数据治理委员会,之后又成立数据审核委员会。1992年,IBM全球有128个CIO、155个数据中心、80个Web拓展中心、31个不同的网络、16000个应用。通过数据治理,IBM简化了基础架构,并降低了管理的复杂度。2007年,IBM全球只有一位CIO,主数据中心变成了6个,Web拓展中心变成全球统一的网络,16000多个应用变成4000个左右。
在此基础上,IBM在2004年联合业界多家公司和学术研究机构,成立了数据治理论坛,并在此次论坛上,制定包括四大领域11个要素的数据治理框架和方法,来指导数据治理工作的开展。框架包括产出领域:数据风险管理、价值创造;驱动领域:组织机构/流程、管理制度、数据责任人;核心领域:数据质量管理、信息生命周期管理、安全/信息披露/合规;支撑领域:数据模型/数据架构、元数据/主数据/数据标准、质量审计与报告。
银行数据治理成功案例
在数据治理方面,由于政策方面的驱动力以及银行自身业务发展的需求使银行数据治理需求旺盛。中国银行(601988,股吧)业信息科技“十二五”规划中包括数据治理与数据标准专题,其中指出“十二五”期间,数据治理需要重点推进的核心领域包括:数据标准、数据质量、数据安全、数据架构,以及为了做好这些工作所必需的保障机制,包括政策、组织、流程、技术等方面。
IBM GBS部门帮助国内外银行做了多个数据治理的咨询项目,包括中国资产规模最大的商业银行。
“这家银行与同行业相比在技术方面是最先进的,已经做了数据质量、元数据等,但没有完整、统一的数据治理方法和配套的制度、流程;另一个问题是数据治理体系和架构还不完善。”谢国忠向记者介绍了这家银行在数据治理方面面临的挑战。
根据IBM数据治理框架和方法,GBS从四大领域11个要素对该行数据治理的现况进行评估,帮助该银行找到差距,并在此基础上分析问题,提出解决问题的建议。这一项目从2008年开始,2010年及2011年该行又相继启动了一系列相关的数据治理项目,包括全行数据标准化项目、数据架构优化项目、全行数据质量管理项目等。目前,该银行在数据治理方面在全国也走在前列。
再看某全球领先银行的数据治理案例。美联储认为该银行没有对信息的整合和质量进行足够的控制以确保合规的要求。而通过一到两年的数据治理,该银行通过了美联储的审计。该银行的高级副总裁Andrew Dunn认为,该银行数据治理取得成功的关键因素是,选择了一个有相关经验、流程和工具的合作伙伴能够加速数据治理在整个企业范围内的有效部署。
主数据管理需求突出
数据治理涉及11个要素,主数据管理就是其中非常重要的一环。Informatica公司高级副总裁兼首席信息官Tony Young就说:“加强主数据管理是企业获得一个完整、可信的数据视图的必经途径。”
主数据是用来描述企业核心业务实体的数据,比如客户、合作伙伴、员工、产品、物料单等。主数据管理旨在从企业的多个业务系统中整合最核心的需要共享的数据,集中进行数据清洗,并以服务的方式把统一、完整、准确的主数据分发给企业内的操作型应用和分析型应用,包括业务系统、业务流程和决策支持系统等。
Tony Young向记者表示:“MDM最核心的任务是导出"黄金数据"。所谓黄金数据就是企业的关键业务数据,也是绝对真实的数据。此外,MDM还要反映主数据之间的关联性,比如客户与产品之间的关系、客户与客户之间的关系等。在数据仓库里,你很难找到这种关联性,而MDM能够轻易做到这些。”MDM和数据仓库之间也有区别,比如它们处理的数据类型不同,MDM是偏交易型的系统,而数据仓库属于分析型的系统。MDM和数据仓库两者可以互相促进,互为补充。Informatica MDM 的灵活数据模型可让IT团队在任何数据域中实施MDM,并可在同一数据模型中添加其他域及定义不同数据域之间的关系。Informatica MDM 可在企业内部或云中实施,也可作为两者的混合体加以实施。此外,它还可以作为多个MDM实例之间的全局性枢纽,部署于联合MDM体系架构内。
金融行业仍然是MDM需求最旺盛的行业,MDM资深专家、Information Difference公司总裁Andy Hayler表示:“一般来说,企业越大,遇到的数据管理方面问题就越多。大公司更容易采用相关的数据分析工具来解决其面临的数据问题。”但这并不是说MDM只适用于金融行业,比如Informatica公司的MDM产品已经在24个行业中得到了应用,包括医疗、石油、公共事业等行业。
数据治理入门
CIO重视数据治理
CIO应该重视对数据治理的定义,并将其标准化为一系列可持续实践的规范。
根据标准行业信息统计,企业数据容量每18个月就会增长一倍,而移动和在线数据增长更快。从公司的成本控制、合规以及具有战略意义的“倾听客户声音”计划等各个方面看,企业日益迫切地需要治理不断“繁殖”的数据。
输入数据治理。这一术语已不仅仅是IT从业者们之间的行话,也已经成为商人之间的行话了。尽管如此,商人和IT从业者们都一直为如何定义数据治理和如何将数据治理标准化为一系列可持续实践而努力。
“治理”这一术语从政界到公司的董事会,被引入到IT主管的圈内,IT主管们都在制定他们的IT管理计划。虽然这一术语已经收录入词典,但是在数据治理实际含义、包含哪些方面以及哪些人应该为数据治理负责等方面还不是很清楚。
IT部门已经开始意识到此术语以及围绕数据的一些业务规则的必要性,这些数据在不同的业务流程和组织结构中越来越多地进行共享。作为成本控制的一部分,首席信息官们开始意识到寻找、收集、注释、巩固和部署数据来支持不断增长的项目群十分必要,并正为之付出不懈的努力。
在不知不觉中,这种治理已经被用于其它的项目中,信誓旦旦的开拓者们已经开始大刀阔斧地整合利用数据。一个大公司的重复性劳动成本往往能达到数百万美元,整合利用数据将会减少这种重复性的成本。
数据治理将会越来越多地被商人所关注。由于缺乏有意义的、综合的和方便的可用数据,业务的发展受到了阻碍,很多商人于是开始想方法应对。现在这种现象正在不同行业中蔓延,进而导致巨大的成本花费。
一个医疗服务提供商无奈地说:“我开发自己数据库是为了自己的数据库不受其他人的数据库影响。”“我不能相信其他人对我的病人相关数据的解析,如果我不得不熬夜来维护我自己的数据库,那么这也是我应该做的。”
将在医院就职的临床医生的数量乘以每个类似临床医生付出的努力,你就会感叹这有多高的成本和多大的风险。
认识数据治理
企业对数据治理担心的部分原因是业内还缺乏对数据治理清晰的定义。
企业数据的业务责任,包括数据治理的总体定义,或者说是业务驱动的策略制定和对企业信息的监管。同样,数据应该和业务相关,其限制了数据治理的定义、规则、访问和使用策略。
“在医疗领域,对信息的获取异常迫切。”身为威斯康星洲儿童医院和医疗系统的企业主管和首席信息官的麦克罗曼说道,“对医学最前线的学术医疗机构来说,这种迫切性更为明显。”
罗曼和其领导的团队意识到数据治理可以是机构性的学科,由业务来驱动,由IT部门来执行。“我们明白信息是共享的资产,所以我们在IT系统中引入了数据治理。”罗曼这样解释,“数据治理包括了新的角色、新的流程和专业技能。我们将准备好支撑数据治理的演进。”这两项功能概括了一个涵盖企业生命周期的流程:定义、追踪、管理和部署信息。毕竟,业务流程间和业务部门间数据共享的程度取决于企业采取的正式的管理和策略决策的程度。
可是要怎么启动一个新的数据治理计划呢?启动以后,又怎么保持呢?
启动数据治理
几年以前,第一批吃螃蟹的公司启动数据治理的时候,他们是没有先例可以模仿的。这些机构依赖于散落的供应商和咨询意见,告诫他们要保证赞助,并将数据当做企业资产来进行管理。
但是这些对结果并没有帮助。一个有远见的管理者会召集在业务和IT领域都有类似想法的人,达成“数据即资产,而目前数据质量不高,需要有人来清理”的共识。接下来自然水到渠成,建立一个数据治理委员会,成为实际上数据治理的决策主体。
然后事情就潜移默化、顺理成章了。
这些开拓者面临的主要障碍是将当前无意义的、不可获得的、重复的、储存的数据转变成信息净化、融合和部署的战略,以取得最大的效益。
如果没有满足关键数据需求的战略性计划,数据治理委员会的会议就蜕变成对“企业资源管理(ERP)系统的数据无用的”抱怨会了。市场部门不会分享数据,委员会成员也不会明白公司信息状态的糟糕情况,那还会有谁来注资此项目呢?
那结果呢?数据治理从未涉及责任归属讨论和优先级争论。相反,数据治理就会被委托给公司的另一个智力机构,有很多人分享意见但是没有人声称对解决问题负责。
在很多这样的公司中,数据治理变成了“暗语”。一个保险公司主管最近邀请我们帮助重启停滞不前的数据治理项目。“不要再将其称为数据治理。”他警告我们,“不然你们会失去可信性的。”
可以考虑的最佳实践
令人欣慰的是刚刚开始进行数据治理的公司正在向有经验的公司学习。下面是一系列最佳实践,供数据治理计划启动前参照。
找到需求、烦恼或问题。听起来似乎比较老套,但是如果数据治理不解决公认的业务问题的话(如不合规带来罚款、重复的客户信息记录或受到侵蚀的市场投资回报率),其就不会坚持太久。
明确数据治理的路标。如果你知道问题所在,就可以针对性地审视整个项目。然后就可限定措施,以证明数据治理的价值。
如果需要的话,找到执行赞助人。公司,特别是拥有共识驱动文化的大型公司在启动跨职能部门的计划前都需要经营性的投入。然而其他公司在征得高管级别的支持前就需要快速展示数据治理的价值所在。
“我们在数据治理项目开始阶段就邀请到首席信息官担任我们的赞助人。”位于拉斯维加斯的Station赌场的业务主管凯伦奥戴尔说道,“他代表企业信息的主席,并不停强调‘我们必须这样做’,由他参与很快会吸引其他人参与。”
先从小范围开始。你可以建立一个数据治理章程,规定一些指导性的原则。确实,有很多机制可以支撑数据治理。但是要确定这些适合特定的项目,以解决已经识别出来的业务问题。
要确保项目在产生新的流程和工作角色的同时,解决至少部分已经识别的业务问题。
传播你的成功案例。一个成功的项目会梳理一个平台,让你可以基于其上将数据治理推向更广大的业务相关人的受众范围。展示你是怎样执行数据策略、怎样清理子网数据、怎样部署数据治理帮助降低成本或者推动产生新的收入。下一步业务相关人的立场就会趋于一致。
考虑一下变革。数据治理所包含的不仅仅是购买高数据质量的工具或者雇佣数据管家。清晰的定义、访问和使用企业信息提高利用数据来梳理业务流程、产生新的收入和驱动创新的可能性。
数据治理的目标不仅是满足一项或几项业务需求,而且应该营造一种对专业技能、流程和工具需求的认识,通过这些在企业范围内定义、维护和提供数据。数据治理将消除无用的手工返工,不用向很多业务人员那样对人员关系高度依赖。
优秀的数据治理提供了一致的、有价值的信息,以支撑战略和梳理操作流程。简而言之,数据治理就是数据驱动机构的核心。
Jill Dyche是Baseline Consulting的合伙人和共同创立者,她也是几本IT的业务价值相关书籍的作者,最近的一部作品是《客户数据融合:达成唯一版本的事实》。