百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

年薪80万的CIO都在用的数据治理方案,这个方案你也可以拥有!

ccwgpt 2024-10-02 12:12 20 浏览 0 评论

数据治理(Data Governance)是企业对数据资产管理行使权力和控制的活动集合(包括计划、监督和执行),它是管理企业数据资源的一种方式、方法,旨在确保数据的质量、安全、合规和有效性。数据治理是企业实现数据战略的基础,是一个管理体系,包括组织、制度、流程和工具。

数据治理是一套复杂的管理体系,它无法通过单一的工具或产品来实现。数据的生命周期包含了源头、处理和消费这三个阶段,数据的问题也可能会出现在这三个环节中。例如在数据源头环节,用户录入数据的规范性存在问题,导致了最终数据消费环节的数据质量低。这些表象问题的根源,可能来自于业务系统用户交互设计,乃至是底层数据库表结构设计上的缺陷。想要解决这些表象的问题,就需要解决深层次的信息化业务系统开发以及数据库表约束设计等问题。

例如为了保证用户录入数据的准确性,有三种方式去设计业务系统

  • 其一是设计前端的检验验证,避免用户做出相同的选择;
  • 其二是通过程序编写过滤判断的逻辑,筛除掉前端误入的数据,作为第二层验证;
  • 其三是通过建立约束条件,例如唯一性约束、检测约束等等来控制数据录入准确性。

因此,企业的数据治理远非使用一款单一的工具或产品就可以实现的,它是需要回到源头,对企业的组织、流程制度、业务系统、底层架构等多个方面进行排查和重构的,它是一套复杂的管理体系。

先分享一份《数字化全流程资料包》,点击下方卡片即可领取丰富的知识图谱、精品案例、场景解决方案、模板等等:「链接」

01 数据治理的两种策略

考虑到数据治理工程的复杂性,我们提出了两种目的性不同的数据治理策略:拉式策略(Pull Strategy)推式策略(Push Strategy)

(一)拉式策略

拉式策略,面向数据应用,是以提升数据应用过程中的数据准确性为目标的数据治理建设策略。它强调在数据应用的过程中定位和解决问题,以数据应用项目为建设周期。具体而言,拉式策略有三个特点:

1.自上而下:拉式策略通常以指标体系为起点,进行金字塔式自上而下的规划与建设,通过“数据流、业务流、信息流”的过程反向推动数据质量提升;

2.数据整合:它包括多系统的数据整合、拉通、清洗、处理,以及数据仓库建设和ETL 开发过程;

3.数据应用:拉式策略面向数据应用。根据实际业务情况,主要解决数据指标定义标准不清晰、指标计算口径不统一、指标计算口径版本变更、数据不准确、数据上报与数据审核等数据应用场景出现的问题。

(二)推式策略

推式策略,面向数据全生命周期的管理与控制,是一种体系化的数据治理建设策略。它强调体系化的计划、监督、预防与执行,包括多年计划的数据策略周期。具体而言,推式策略有三个特点:

1.体系化、系统化:推式策略不针对某个单一的、具体的数据应用场景,而是一个全面体系化的治理过程;

2.全生命周期:它贯穿数据全生命周期的管理,例如数据采集、数据质量、数据应用、数据安全、数据分享等多个环节;

3.立体策略:推式策略从数据治理策略(目标、范围、方法和组织 )开始,通过专业的数据治理团队进行数据治理的规划、实施和监督,通过制定数据管理流程规范从源头业务系统的构建到数据的分发、流转,包括数据安全策略与控制,最终贯穿数据资产管理、分析和挖掘的全生命周期过程。

02 策略比较

拉式策略以数据应用需求为起点,推式策略以标准规划为起点,两种策略在多个方面有差异:

根据多数企业的实践经验,以数据应用需求为起点的拉式策略有着更短的实施周期和更低的投入成本,是一种更加灵活、更加敏捷的数据治理策略,我们将在下文中着重介绍这种数据治理策略。

(一)拉式数据治理建设策略流程解析

以提升数据应用过程中数据准确性为目标的拉式数据治理建设策略主要包括3个流程:

(1)基于指标体系的数据问题洞察:基于数据指标体系,以“数据流、信息流、业务流”的基本逻辑框架,在限定的范围内及时洞察数据质量问题的根源,并逆向推动业务信息化和业务管理的改善和提升;

(2)稳健的数据架构设计:通过数据仓库建模、合理的分层设计、ETL 过程开发等,保障数据模型及架构的稳健性和可扩展性,提高数据使用的准确性;

(3)数据应用审核管控机制:建立面向高层管理的数据指标管控及审核机制,确保数据应用过程中(上报、可视化分析)关键数据必须经过有效审核,提升数据使用质量及数据准确性。

03 数据问题洞察

数据问题的洞察过程可以分为5个步骤:

  • 第一步是企业内部的资料收集和需求调研;
  • 第二步是指标体系梳理;
  • 第三步是确认可视化原型设计方案;
  • 第四步是“数据流-信息流-业务流”的问题识别过程;
  • 第五步是暴露问题,形成数据质量提高待办。

这些步骤中最为重要的是第二步指标体系的梳理和第四步“数据流-信息流-业务流”的问题识别过程。数据问题洞察,本质上就是基于数据指标体系,以“数据流、信息流、业务流”的基本逻辑框架,在限定的范围内及时洞察数据质量问题的根源,并逆向推动业务信息化和业务管理的改善和提升。

(一)数据流层面:

企业数据问题的洞察始于数据流层面的对指标体系的梳理。指标体系里包含指标和维度,指标即是目标,维度是数据的视角。在确定指标体系后,就需要标准化指标的定义与计算口径、计算逻辑,包括对不同计算口径的版本管理。在计算口径确认后,就需要顺着计算逻辑逐层向下追踪,查看数据能否被获取到。

(二)信息流层面:

如果在数据流层面出现了问题,比方说数据不能被获取到,那么问题很有可能出在信息流层面,例如信息系统建设存在问题导致数据没有被收集。在这种情况下,可以通过手动填报的方式补录数据,也可以在后续的阶段中完善信息系统的建设。这一过程体现了从数据流到信息流的分析,企业能够更深层次地洞察数据问题的本质,通过数据流暴露的问题来逆向推动未来信息流建设的完善,进而支撑更全面的指标体系。

(三)业务流层面:

数据流层面出现问题,排除信息流层面存在的信息系统建设问题,还有可能是业务流层面的管理问题导致的。例如同一个指标有不同的计算口径,这就不是信息系统的问题,而是管理自身的问题,是由于部门间的冲突而导致的。从数据流到业务流的分析,企业可以通过表层的数据问题洞察到自身业务流程上存在的弊端,从而逆向完善业务管理流程和管理边界。

在这样金字塔式的数据问题洞察方法下,通过阶段性、有限的指标体系框定了取数的来源范围,因此不会盲目地扩大数据治理的范围和目标。通过在限定的系统范围内洞察存在问题的数据,可以形成有针对性的数据治理策略,让问题聚焦。最后通过阶段性的识别问题、解决问题,可以由点到面、由浅及深,暴露的问题逐步解决,保障阶段性的建设成果。

企业表层数据问题的产生往往有深层次的业务系统设计、流程制度管理方面的原因,因此要想通过数据治理提升企业数据的质量,就不能仅仅依靠一个工具或产品解决表象的问题。我们提出了企业数据治理的拉式策略(Pull Strategy)和推式策略(Push Strategy)来满足不同的数据治理需求。

考虑到当今企业面临的复杂环境,实施周期更短、治理成本更低的拉式治理策略更能及时满足企业数据消费的需求,是一种更灵活、更敏捷的数据治理方式。在该策略下,基于指标体系的“数据流-信息流-业务流”分析逻辑能够帮助企业发现、洞察、追踪数据问题产生的根源;稳健的数据架构设计能够帮助企业解决数据质量的问题;数据应用审核管控机制的建立能够帮助企业解决错误数据被使用的问题。经过系统化的数据治理,企业数据质量将更能满足消费的需求,基于数据的决策也将更加精准。

本文摘录于帆软最新《商业智能应用白皮书 》

如果大家想要了解完整的数据治理方案,可以点击链接获取完整版《商业智能(BI)白皮书》:「链接」

相关推荐

Dubbo最全详解(万字图文总结)

大家好,我是mikechen。Dubbo是非常重要的分布式中间件,也是微服务的核心框架,而且大厂也特别喜欢考察Dubbo,下面我就全面来详解Dubbo@mikechen本篇已收于mikechen原创超...

探秘Dubbo:RPC框架的奇妙世界

探秘Dubbo:RPC框架的奇妙世界大家好啊!今天我要带大家走进一个神奇的编程领域——分布式服务调用。说起分布式系统,很多程序员都头疼不已。但今天咱们不谈那些让人抓狂的网络延迟、负载均衡等问题,而是聚...

Dubbo分布式服务框架:像调教宠物一样驾驭它

Dubbo分布式服务框架:像调教宠物一样驾驭它大家好呀,今天我们来聊聊Dubbo这个分布式服务框架,它就像一只温顺的小猫咪,但有时候也会调皮捣蛋,所以得好好调教一番。别担心,我会用最轻松的方式来帮你搞...

深入浅出:Dubbo框架源码分析

深入浅出:Dubbo框架源码分析Dubbo是一款由阿里巴巴开源的高性能分布式服务框架,广泛应用于微服务架构中。它为开发者提供了强大的RPC调用能力,使得分布式系统中的服务间通信变得简单高效。本文...

Dubbo分布式服务框架:从零开始的实战之旅

Dubbo分布式服务框架:从零开始的实战之旅Dubbo作为一个高性能的JavaRPC框架,在微服务架构中扮演着重要角色。它能帮助开发者轻松构建分布式系统,实现服务间的高效通信。今天,我们就来一起探索...

Dubbo分布式服务框架的工作原理:从入门到精通

Dubbo分布式服务框架的工作原理:从入门到精通Dubbo是一个高性能的Java分布式服务框架,由阿里巴巴开源。它致力于提供透明化的远程方法调用(RPC),使得开发者能够像调用本地服务一样调用远程服务...

框架的本质分析——Dubbo

诞生的背景什么背景下诞生了该技术?不论是哪个框架,不会平白无故诞生,不会平白无故的被人所追捧,了解其背景,追根溯源。随着互联网的发展,网站应用的规模不断扩大,常规的垂直应用架构已无法应对,分布式服务架...

2023编导艺考「热点话题」评述框架示例(七个2022热点)

2022冬奥会开幕式(1)“旧”文化符号的“新”应用(2)“全媒体”时代的“小人物”(3)“简约”的形式表达“丰富”的内核(4)“新”叙事结构打破“旧”国家形象(5)数字媒介增强受众“在场感”短视频“...

84页思考的框架,思维模型的全明星集合,9种经典思维模型

分享职场干货,提升能力!为职场精英打造个人知识体系,升职加薪!84页思考的框架如何拿到分享的源文件:请您关注、转发,然后私信本头条号“文米”2个字,按照操作流程,专人负责发送源文件给您。...

DUSt3R-从任意图像集合中重建3D场景的框架

DUSt3R是什么DUSt3R(DenseandUnconstrainedStereo3DReconstruction,密集无约束立体三维重建)是由来自芬兰阿尔托大学和Naver欧洲实验室的...

高考数学:一张思维导图掌握集合知识点,真题解析巩固知识

一、思维导图二、疑难透析三、题型示例1、已知集合A={1,3},B={x丨mx-3=0},且A∪B=A,则m的取值是()。【解析】分类讨论思想∵AUB=A∴BA(1)当m=0时,B=,符合条件;...

java集合框架03——ArrayList和源码分析

上一章学习了Collection的架构,并阅读了部分源码,这一章开始,我们将对Collection的具体实现进行详细学习。首先学习List。而ArrayList又是List中最为常用的,因此本章先学习...

Java Collections 工具类集合框架中常用算法解析

在软件开发中,算法是非常重要的一部分,它们可以提供高效的数据处理和操作。在Java集合框架中,有几个常用的算法,包括排序算法、二分查找算法、洗牌算法和旋转算法。本文将对这些算法进行详细解析,并写了一些...

1.6、Java 异常处理机制与集合框架(List、Set、Map等)

在Java编程中,异常处理机制和集合框架是两个非常重要的概念。前者帮助开发者处理程序运行时可能遇到的错误,确保程序能够稳定运行;后者则提供了一种有效的方式来管理和操作数据集合。本文将分别介绍Java中...

Java集合框架性能优化秘籍

Java集合框架性能优化秘籍在Java的世界里,集合框架就像一座巨大的宝库,存储着我们程序的各种数据。然而,随着数据量的增大,如何让这座宝库更高效地运作,就成了我们必须掌握的艺术。今天,我们就来聊聊J...

取消回复欢迎 发表评论: