其他分享
首页 > 其他分享> > 选型宝访谈:移动+社交时代,如何治理“大数据洪水”?

选型宝访谈:移动+社交时代,如何治理“大数据洪水”?

作者:互联网

写在前面

不管你是否愿意,随着移动互联网和社交工具的普及,一个充满了机遇和挑战的大数据时代悄然来临了。就在大家纷纷谈论数据驱动创新、数据创造价值的时候,仍有许多企业的CIO/CDO在这个新时代面前感到茫然和困惑:

我的企业的数据在哪里?它有什么价值?

数据治理,应该建立怎样的完整框架?

在完整的框架下,应该用怎样的工具武装自己 ?

移动+社交时代,海量非结构化、半机构化数据涌来,如何应对?

智能数据湖是怎么回事儿?它和数据仓库是什么关系?

……

为了找到这些问题的答案,我们特意采访了全球领先的数据管理专家Informatica的中国北方区总经理李晨先生。下面就让我们一起听听李晨先生与选型宝创始人兼CEO殷勇的精彩对话吧。

殷勇

提到大数据,我们首先会遇到一些概念,比如说大数据、数据仓库、数据湖等,请李总先为我们梳理一下这些概念,说说它们的发展渊源吧。

李晨

这三个概念里,最先兴起的是“数据仓库”,这个技术已经有20多年的历史了。从上个世纪九十年×××始,随着IT系统的逐渐增多,数据之间的交互也随之增多,这时客户会发现,只拿到一个系统的数据是完全不够的,他需要去汇总很多系统的数据,在这个时候,数据仓库就应运而生了。顾名思义,数据仓库就是把数据放在一个地方进行集中管控,就像一个仓库一样。数据仓库主要针对结构化数据进行存储和应用,比如一些OLTP(联机事务处理过程)系统产生的数据。数据仓库将这些数据汇总到一起,为管理经营者在业务分析、决策支持等方面提供支撑。

随着业务的逐渐增多和技术的不断发展,出现了互联网、移动互联网、自媒体以及很多社交工具,还有工业自动化以及物联网等,随之而来的,是海量的、爆炸式增长的数据。这个时候,传统的数据仓库对数据格式的支持、对数据种类的支持、以及对数据量的支持就已经力不从心了,因而需要一些新的技术来承载这些数据,这个时候,大数据技术就应运而生了。

大数据平台的这个“大”体现在两个层面,一个层面是数据量大,它的数据量可以是传统数据仓库的几十倍、几百倍甚至上万倍;另一个层面是数据繁杂,会有很多非结构化数据、半结构化数据,以及很多传感器的信息,这些信息是我们传统的结构化数据平台不能支撑的。

大数据平台在经过了近十年的发展之后,现在已经逐步趋于成熟,随之而来的,是一个新的问题:我们很难再像以前一样,在这样海量的数据里面清晰、快速、准确地找到我们所需要的数据了。就像我在水盆里去找一粒沙子和我在大海里面去找一粒沙子,这个难度和所要花费的时间是不可同日而语的,这个时候应运而生的,就是我们的数据湖的概念。

数据湖更关注的理念,在于快速、精准、高效,尤其是自服务。一般来讲,在传统的IT建设的过程中,我们建立数据仓库、建立BI(商业智能)系统,进行数据挖掘分析、报表展现等,这些往往是由业务需求驱动的,而我们的业务人员对这些复杂的IT系统的了解一定是不够深入的,需要IT部门来帮忙处理。他们会把这些业务需求转给IT部门,由IT部门的同事把这些业务需求转换成技术方案来实现。但是,在大数据时代,数据量很大,数据的变化也很快,提出需求的频率可能也是以前的很多倍,为了适应这种变化,就要求数据处理系统的响应速度也越来越快,而我们的智能数据湖就是用来解决这个问题的。智能数据湖以自服务的方式,让业务人员自己去找到相关的数据,再进行归类、总结、建模、分析等,从而为业务提供支持。

殷勇

如果今天我们要对企业的数据进行有效的治理,在您看来,应该有怎么样的一个完整框架。

李晨

从数据治理来讲,它是一个相对来说更倾向于管理或者管控的一个概念或一类项目。数据治理和我们公司里面的公司治理,以及向下延伸的IT治理,是一脉相承的。公司治理的一个很重要的部分是IT治理,而IT治理中最重要的部分就是数据治理。尤其在大数据时代,数据其实已成为各个企业的核心资产,所以,数据治理现在是一个非常火的,也是非常重要的一个话题。

以Informatica的观点来看,企业的数据治理分为以下几个部分:首先要统一企业内部治理的标准,大家都要说同样一种语言,话语逻辑要一致。第二,我们需要制定相应的管理流程和管理规范,这是策略和流程层面的。第三是技术层面的数据集成基础架构,Informatica还为企业提供了包括数据访问、数据质量管控,数据安全审计,以及数据交付服务这些功能,用以支撑我们上面所制定的所有标准、规范以及流程。以上三个方面形成了一个稳定的三角形,支撑起了整个企业数据治理的大框架。

殷勇

那么,在这个框架之下,你们的产品布局又是怎么的呢?

李晨

正如我们前面讲到的,一个完整的数据治理框架应该涵盖数据访问、数据质量管控,数据安全审计,以及数据交付服务等功能,目的是为了支撑大数据治理的所有标准、规范以及流程的落地。

我们在企业数据治理框架之下的每一个细分领域,都有相应的解决方案,包括我们在业界最知名的产品-数据访问或者叫数据集成工具,包括数据质量管控工具,包括数据安全管理工具,以及数据审计工具等等。

在大数据管理工具方面,我们有Big Data Management Editions、Big Data Parser、Big Data Relationship Management、各种Connectors、Vibe Data Stream等产品和解决方案。

在数据集成工具方面,我们有PowerCenter,PowerExchange、B2B Data Exchange、Data Integration Hub、Real-time Integration等产品。

在云数据管理方面,我们有Cloud Application Integration、Cloud Data Integration、Cloud Data Management等产品。

在数据质量管控方面,我们有Informatica Data Quality、Data as a Service、Rev等产品。

在主数据管理方面,我们有Multidomain MDM、Identity Resolution、Customer 360、Product 360 (PIM)、Supplier 360、Business Process Management等产品。

在数据安全方面,我们有Secure@Source、Test Data Management、Dynamic Data Masking、Data Archive等产品。

殷勇

数据治理是一个过程,那么你们能否能够帮我们做一个评估,帮助企业了解自身处在一个什么样的阶段,在这个阶段我们应该做什么?

李晨

我们为大家提供了一个数据治理成熟度在线评估工具。用户通过在线回答问卷,会获得一份基准报告。这份报告是根据后台的知识库和评估算法自动得出的,它会让您了解自己企业的数据治理水平,并会给出相应的建议,帮助您提升企业数据的价值。

殷勇

接下来我们就聚焦到你们最新提出的“智能数据湖”的概念。您认为,今天在哪些行业,建立数据湖变成了一个特别紧迫的需求?它的典型应用场景是怎样的?

李晨

从行业性来讲,其实并没有一个非常明确的分法。每个行业都有IT发展比较领先的一些企业,这些企业的IT成熟度非常高,IT系统建设相对比较完善,大数据技术的应用也比较广泛,对数据的需求越来越多,而且已经将数据作为企业的核心资产了,这个时候,它就希望更大限度地利用这些核心资产为企业创造出更多的价值,那么,它就需要使用数据湖了。

数据湖是从用户的需求而来的,它和数据仓库、大数据一样,也是应运而生的。在今天的大数据时代,我们的数据量实在是太大了,市场的变化也实在太快了,我们的竞争对手也更多了。这个时候,企业的市场营销人员、经营管理人员就需要更快地、更自主地去进行数据分析并获得决策支持,这样,传统的支撑流程就无法满足要求了。这个时候,我们就会建议客户使用“智能数据湖”技术了。

智能数据湖有几大优势,一方面它会帮助我们清晰地细化企业内部的数据资产,帮助我们了解企业内部都有哪些数据,这些数据都在哪里,这些数据都代表了什么样的含义。而且,要做到这些,并不需要复杂的IT工具或编程操作,我们只需要通过一个非常简单的客户端或页面,用拖、拉、拽的方式,去选择感兴趣的内容。

另外,我们会帮助用户建立企业信息资产目录,并通过可视化工具,方便业务人员对感兴趣的数据进行挑选、合并,建立数据模型,做出分析决策,从而为经营行为提供支撑。

殷勇

智能数据湖和数据仓库是一个什么样的关系呢?

李晨

智能数据湖和数据仓库的主要区别在于容量和处理方式。像传统的OLAP这样的系统,我们需要取出一些报表,进行一些分析,其实仍然可以使用数据仓库,这个技术并没有过时。很多传统的使用场景,用数据仓库是完全可以解决的。

但是,当我们需要进行数据创新,需要进行业务模式创新的时候,我们就需要用到大数据技术,用到智能数据湖技术,用到自服务和数据展现技术了。

殷勇

关于智能数据湖的应用,您有没有一些典型的场景和案例,给我们分享一下?

李晨

有很多。其实在这方面,我觉得每个客户都是我们的老师,他们也在帮助Informatica成长。关于智能数据湖的应用,我可以先简单举两个例子。

一个是GE(通用电气)的例子。GE是一家业务板块众多的集团公司,其中有一个板块是做发动机的。大家知道,GE的飞机发动机在全球的市场占有率还是很高的,为了促进业务的更快发展,GE实施了一个新的业务模式,那就是“以租代买”。在航空发动机领域,要收集的数据是非常多的,这些数据可以帮助公司了解每个发动机的状态,是否有潜在的故障,是否需要更换零配件等等。为了获取实时数据,GE甚至购买了十二个卫星。

这些发动机的数据,很多也是半结构化或非结构化的,因此,GE就应用了我们的数据湖的技术。发动机的所以数据被采集过来以后,利用大数据平台,把它汇总到一起,再利用我们的数据湖技术,挑选出每一个不同种类工程师所需要的数据。因为这些数据太大了,不是每个人都需要全量数据的,他只需要挑出它感兴趣的数据就可以了。比如维修工程师,他可以通过自服务平台,把飞行状态等数据拿出来建模、分析。而财务人员可能并不关心这些信息,他可能会去做一些财务成本分析,把每一个发动机的成本摊销到每一个飞行小时数以及每个飞行公里上,看我是到底赚了多少钱。

我们看到,不同部门的不同角色,它所需要的数据是不一样的,这样就需要有一个智能数据湖,需要有一个自服务平台。这个时候,我们不需要太多的IT人员参与进来,花费大量的时间去实现这些需求。很多时候,我们只需要把平台的功能开放给业务人员,让他们自己去做就好了。这是国外的一个典型案例,智能数据湖改变了企业的运营方式。

我再举一个国内的一个案例,是一个政府部门,他们也采用了Informatica全套的解决方案。这个政府部门的平台也非常复杂,比如,它要向主管的×××汇报商品价格信息和流通状态,这就需要从每个省、市、县,甚至每个超市、菜市场收集很多非结构化、半结构化的数据。要把这些数据整合到一起,首先要进行标准化。同样是一个东西,有的地方叫地瓜,有的地方叫红薯,怎么能让大家的达成一个共识呢?这就要用到数据治理的方法,我们叫它“数据标准化”。我们先把大家的语言统一起来,采用同样一个标准。

这些数据收集起来以后,我们把它分门别类放好,然后就可以对内/对外提供数据服务了。比如这些数据可以用来向×××做汇报,也可以开放给企业做市场调研。也可以做食品安全的追溯,对每一位数据使用者,Informatica的平台都能做到快速分析和快速响应。从数据资产的建立,到数据管理、数据安全,再到以自服务的方式获取数据,在整个数据应用的链条里面,Informatica都有相应的方案和产品。

殷勇

我们也想了解一下,智能数据湖的智能体现在哪些方面呢?

李晨

所谓智能,它体现在几个方面。一个方面,它智能地为每一个数据资产打上了标签,形成了全方位的企业数据资产目录。当然,这里面还会用到另外一个叫做“元数据”的技术,这也是Informatica在这个领域里面最强的产品之一。我们会把每一个数据资产的生命周期里的血缘、影像分析等全部列出来,形成一个非常清晰的数据资产,从而帮助技术人员和业务人员了解企业内部的数据资产,这是一个智能。

另外一个智能是 “服务智能”。我们会提供一个非常灵活而且简单实用的平台,业务人员可以不经过很多培训,就能自助式地挑选他所要的数据。他也可以通过企业资产目录,看到整个的数据,看到数据库里面有什么样的数据,哪些数据是他所需要的。他还可以通过智能搜索的方式找到相应的数据,然后再把它汇总到一起,这是智能在另外一个方面的体现。所以,数据湖的整个应用过程都是智能化的。

殷勇

我看到一些资料上说,你们这个自服务的过程,就像操作Excel那样便捷简单,是这样吗?

李晨

对,甚至比Excel还要简单。在这个大数据的时代,提升系统本身的响应速度是一个非常关键的技术,Informatica一直倡导的就是:所有的底层技术,不需要花太多的时间去学习,所有新的技术全部由Informatica来帮助你去完成,你只需要会使用Informatica底层的数据管控技术,其他的由Informatica来帮你做,这样就可以大大降低学习和培训的成本,就可以适应技术的快速更迭。

殷勇

我想问一下,在你们的产品框架里面,对安全这块是怎么考量的?

李晨

数据安全是一个非常大的话题。Informatica关注的重点,是对敏感数据资产的保护。首先,我们会帮助企业客户去发现敏感数据所在,知道哪些表、哪些字段里面有敏感数据。因为数据太多了,没有任何一个人能说得清楚,我有多少个数据库、多少个表、多少个字段、其中有哪些敏感信息,而Informatica可以帮助他自动发现,这也是我们的核心能力。

发现了敏感数据之后,我们就要对它进行保护。保护其实有很多种方式,最常见的是数据变形,我们叫做数据脱敏。我们会把这些敏感数据变形,变成高仿的假数据,在满足业务需求的情况下,客户在使用过程中是没有任何的影响和感知,而别人拿到这些数据,也没有用。

另外一方面,我们还可以进行一些数据的安全备份。在这方面,我们有传统的物理备份,也可以针对实时变化的数据,在不影响同步交互的情况下做增量备份。在这方面,Informatica的技术是非常成熟的,优势也是非常明显的。

所以,从数据安全的角度来讲,我们首先保证了用户敏感信息或者敏感数据资产不会被泄露,不会被滥用,这对于企业的安全管理来讲是非常重要的。另外一方面,我们保证了数据资产的安全,通过多种备份手段,保证所有的数据资产都能够安全地掌握在自己手上。

殷勇

您刚才提到,你们的软件对底层有很强的适应性。那么,智能数据湖是基于怎么样的一个技术架构?它的实施部署又是怎么的呢?

李晨

智能数据湖其实是基于大数据平台来进行部署的,它的架构也非常灵活,能支持不同种类的大数据平台,它的实施部署也非常方便。由于各项目的具体情况不同,实施部署的周期也会不同。我们在全国有很多的实施服务合作伙伴,也有大量原厂的实施服务人员,能够为客户提供实施速度和实施质量的保障。

在实施过程中,我们也会把很多现成的方法论、自测工具,成功案例和实践经验等,一起分享给我们的每一个客户。同时,我们还会推荐我们的合作伙伴来去帮助用户梳理它的业务,梳理它的目标,梳理它的数据标准和管控原则等。我们会为客户提供一套针对客户情况的规章制度、管理流程以及标准、规范,甚至为客户进行定制化的开发,这些都是整个实施过程的组成部分。

殷勇

对客户来说,后续的持续服务,是需要自己培养一名数据分析师来做,还是通过你们的合作伙伴来完成?

李晨

其实这两种模式都会有。很多客户有自己非常成熟的IT运维的团队,它也希望这样的技术,包括日常运维能掌握在自己的手里,那我们会对客户进行非常全面的技术培训和知识转移。客户也可以通过我们的网站,获取他所需要的各种知识、最佳实践等。用户也可以通过参加我们提供的培训,获得技术认证。当然,我们的合作伙伴、认证服务商也可以为客户提供这样的服务。通过服务外包,用户可以把自己的精力放在核心的业务创新上面。

殷勇

好,非常感谢李总的分享。

标签:殷勇,社交,Informatica,数据仓库,智能,选型,访谈,数据,我们
来源: https://blog.51cto.com/14440256/2421696