其他分享
首页 > 其他分享> > 转变,贝壳数据平台的演进

转变,贝壳数据平台的演进

作者:互联网

图片



导读:本文主要分享如何通过数据产品,帮助具有20年历史的传统企业在行业互联网数字化转型,促使业务更高效的应用数据,数据平台产品在公司数字化转型的过程中是如何演进的,会遇到什么样的困难,以及产品建设过程中的思考与实践。并重点介绍贝壳数据平台建设的演进、治理过程。

01贝壳业务及数据应用的背景

1. 贝壳业务

图片

贝壳是一家产业互联网公司,房屋买卖交易是公司的主业。在房屋买卖和租赁过程中,整个交易过程很大一部分是通过线下完成。从交易视角看,房屋买卖交易是低频,周期较长的。随着科技的进步,贝壳也成功的把很多线下环节拓展到线上。目前,贝壳的商机主要通过线下门店和贝壳app获取,之后会带看、签约、最后到成交,这一系列流程中涉及到房源、客源、商机、经纪人、门店等。

从数据视角看,贝壳目前有全国最全的楼盘、房源数据、大量的经纪人行为数据、线上\线下商机数据、门店数据等,数据纬度多、元素多,复杂度大。与纯粹的线上互联网公司不同的是,贝壳无法把所有交易过程线上化,只能尽可能的将交易关键节点先线上化。因为整个交易过程中,绝大部分关键节点都需要线下带看和经纪人沟通。这也就导致了很多数据是线下收集的,这也是贝壳数据呈线下化特点。另一个就是数据的延迟性。这里的延迟性是指数据的延迟性,并非系统的延迟性。比如签约、带看,并非完全和系统同步。在业务口都有“喜报”的说法,往往这部分数据都是线下先去填报统计但在时间上没有当天走线上流程,这样就会产生实际业务与系统记录的偏差。

综上,贝壳的数据呈类型多、复杂度高、线下化、延迟性的特点。

2. 贝壳数据

图片

从数据建设以及数据应用的视角看,贝壳存在三类用户:

3. 数据应用场景

图片

贝壳的数据应用场景主要分为管理、实际作业和品牌(系统)的应用。

02贝壳数据平台的演进

1. 过去

① 平台的样子

图片

2018年加入贝壳的时候,主要接手两个平台产品:

两个平台从数据加工采集到数据应用都涵盖了,那么对于公司、用户来说,都有哪些问题?以下将从效率、平台、数据质量、安全的角度剖析。

② 面临的问题

公司的数据能力建设以及应用、是一个复杂而庞大的体系化工程,单点突进(例如查询引擎特别好,数仓建设的完备)对用户来说,依然会在某些场景有体感不适的情况。所以数据能力建设一定是齐头并进,抽象聚焦的。一般来说,重点聚焦在:数据应用效率、数据质量、平台系统、数据安全几方面。

效率:

图片

从效率讲,主要是数据流转问题:

图片

平台:

从平台视角看,kylin解决方案满足不了所有场景,贝壳的业务维度多,很容易发生维度灾难。平台的设计是基于当时历史情况来设计,但业务、公司的变化飞快,平台不能适应变化导致系统模块在平台上融合度不够。用户另一个直接感受是技术元素过高,平台的易用性不够,很多功能使用前需要咨询,增加了沟通成本,平台门槛过高。

质量:

同时,对于当时的平台设计,也是缺乏数据管理与管控的。指标需求越来越多,埋点也越来越多,导致指标、埋点、数据表等只增不减。最后,指标数量破万,埋点事件2万多。这样的情况对于用户来说,不知道该用哪个,自己再重新提需求建设,进入恶性循环。对于公司来说,存储、计算压力与日俱增。并且由于效率问题,大家开始自行写Sql提数据,下载数据与线下数据整合等,数据出口非常多。没有统一的管理,数据准确性、一致性遭到用户的存疑,数据信赖度降低,每天的对数成本非常高。

安全:

数据安全同样存在问题,平台的主力功能是数据获取,用户从平台下载数据到本地,通过截图、PDF、Excel进行传播,也没有水印,数据安全存在非常大的隐患。

用户感受:

图片

过去,我们的用户花了70%-80%的时间停留在权限获取/数据处理加工和对数上。从右边五个维度看,平台打分也都不是很高。所以对于未来,贝壳平台要如何演进?

③ 需要什么?

图片

我们希望减少用户在数据加工上的时间,提高用户上层的效率,产出更多价值。同时,致力于成为提供高效、安全、可信赖的平台。

④ 怎么做?

贝壳需要怎么做?主要考虑以下两方面:

2. 演进

① 平台演进路线

图片

从背景以及平台带来的问题来看,如果要解决效率、质量、安全的问题,需要把用户整个分析流程全部囊括到平台中来,降低门槛,给予用户更多的自主性、灵活度,同时也要有规则标准进行保障约束。

在2018年底,结合用户和公司的诉求,公司开始研发数据分析平台——奥丁。希望通过平台建设,将原来不能满足的诉求一一实现,将用户自成体系的建设数据方式,逐步迁移到平台上来,把数据孤岛逐步整合到一起。

首先要能覆盖用户线下加工分析到传播的全流程模式:

通过提供一套完整的数据分析体系,整合底层数据引擎、权限、数据管理的能力,输出一整套数据平台能力和服务,释放给平台用户。

但在这个过程中,平台的能力建设是重要的一步,另外更重要的是数据内容建设本身,数仓的模型建设是更重要的,用户需求多样,数仓在这个过程中抽象需求,形成高可用、易懂的数据供给。

② 奥丁分析平台

图片

奥丁分析平台于2018年启动,前后经过了几个版本,这几个版本都是结合当时不同的情况进行的迭代。实际上线到今天为止,已经把全国70%-80%的城市纳入。

③ 数据资产化管理

图片

对于数据资产化管理,我们从底层服务支持上做了扩展,包括数据可管理、权限可管理、资源可管理、数据质量可控:

④ 数据工厂

图片

数据工厂的演进过程也是从2018年底开始,首先做了权限系统的监控,然后希望通过业务的语言了解数据的组织,所以做了元数据图谱。2019年相继做了数据开放等,到今年我们将工作空间、规则引擎建设完毕。

⑤ 效果

图片

从效果来说,对于各城市受益最大。数据分析师有更多时间做分析,在效率、质量上都得到保证,从安全上数据能达到不落地。

⑥ 有哪些困难?

在演进的过程中,我们面临如下困难:

3. 现在

图片

贝壳现在的平台架构,底层是hadoop生态。服务层集成了数据采集,数据开发,数据管理,数据一整套底层服务。上层是应用的建设,包括数据探索,以及轻量化的建模和可视化,以及指标体系能力建设,最终给到用户的内容多端呈现为移动端app、小程序、大屏、门户。

03贝壳数据平台的未来构想

图片

贝壳经历多年建设基础,能给用户什么?现在我们将线下数据孤岛整合到线上,还处于现象刻画中,停留在数据使用的基本层次上。未来,希望数据能够智能化,形成知识沉淀,形成数据对话,能指导业务,做出风险预警,同时也要提高分析师素养和培养业务数据应用习惯。

图片

举个例子:

这就是我们整体对未来的规划,从刻画现象到内容解读的过程。

最后,产业互联网和互联网在数据应用上本质上没有什么不同,业务、数据驱动的诉求的场景都是一样的,短时间内,贝壳业务的模式不会发生太大的改变,希望在大数据技术以及产品应用不断发展的今天以及未来,能够打造出一套适用用产业互联网的数据产品体系。谢谢大家。

今天的分享就到这里,谢谢大家。



标签:演进,贝壳,平台,用户,指标,线下,数据
来源: https://blog.51cto.com/15060460/2672395