“大数据星火联盟”成立背后有哪些深意?
作者:互联网
10 月 17 日,在神策 2017 数据驱动大会现场,“大数据星火联盟”正式成立。该联盟由神策数据牵头,目前已有十家企业,包括神策数据、第四范式、UCloud、旷视(Face++)、Ping++、智慧芽、荣之联、拉勾云人事、达观数据、智齿科技等。
目前来看,无论是从产品与服务能力、技术壁垒、还是客户认可度等方面,这个联盟可谓大数据、人工智能行业中企业服务综合竞争实力颇强的组合。联盟成立的目的是什么?“大数据星火联盟”命名背后有哪些深意……
神策数据创始人 & CEO 桑文锋在主持联盟成立前的一番话中,他深度观察大数据行业,分析我国面临的数据化建设的瓶颈,指出越来越多企业参与大数据联盟的背景与初衷,核心观点如下:
2000 年前后的中国互联网分为两个阶段:2000年 - 2015 年是 IT 化建设的阶段;2015年 - 2030 年是数据化建设的阶段。可以说 IT 化建设是数据化的前提。随着大数据时代的兴起,越来越多的企业意识到数据对一款不断迭代产品的发展至关重要。把脉中国数据化的现状,数据底子薄是最关键问题,以下内容主要围绕企业数据根基、数据驱动产品智能两大理念展开。
“大全细时”以及三种采集方案
管理数据源如扎根土壤,根基稳固方能避免“空中楼阁”,这是桑文锋在大数据行业工作近十年的最大心得。尽管我国企业数据化建设已经开了头,而且众多企业都在培养用数据说话的意识。
“大全细时”(相关链接:埋点套路深,千万别掉“坑”)总结了大数据的价值,并强调数据源的重要性,也是企业积累数据资产的前提。总之数据采集不应只是搜集 App 网站客户端数据,还应包括客户服务器端、传感器和第三方数据等。如何收集,有三种方案:
一种是全埋点方案。在产品中( App 或者服务器模块)嵌入 SDK,等于做了一个统一的埋点,把相关的维度和关键的事件记录下来;
一种是代码埋点。代码埋点又可以分为前端代码埋点和后端代码埋点。前端代码埋点类似于全埋点,都是在前端嵌入 SDK 的方式,不同的是,对于每一个关键行为,我们都需要调用 SDK 代码,将必要的事件名、属性字段等写入代码,然后发送到后台数据服务器。与全埋点相比,更适合精细化分析的场景。我们可以将各种细粒度的数据采集下来,方便做后续的深度分析需求,具有更高的数据可靠性,并且可以实现一处埋点,不用从各个 App、Web 端进行埋点操作。
第三种是导入辅助工具。为了减少系统耦合性,我们还可以采用日志、数据库的方式生成数据,然后对数据进行转换,通过实时或批量工具完成数据的导入。对于离线数据,比如线下人员和客户沟通情况等,可以通过导入工具完成数据采集。事实上我在百度很多时候是将日志格式的数据,通过一个叫 LogAgent 的模块,实时传入到后台服务器,也会采用分布式抓取的方式,定时将数据从源头下载到数据服务器上。
神策数据支持以上三种采集方案,并认为,选择哪种采集方案应该根据企业的业务场景。单有工具不行,还需要分析师团队帮助梳理需求。因为数据驱动落地不只是有工具、有平台,搭起来一个 Hadoop、一个 Spark 就是数据平台,真正把数据治理好还是需要懂业务的,神策数据的定位还是面向业务层面,就是如何帮助企业把业务做好。
元数据管理
在进行数据统计时,企业经常会对数据的准确性产生怀疑。因此要把数据本身的源头管理起来,以保证数据的准确性。这需要对埋点进行管理,监控数据源头、采集数据,在采集过程中校验通过多少条、导入通过多少条,要把这些过程监控起来,有问题后可以实时跟踪。神策数据在数据采集和埋点管理方面下了很多功夫。
用户行为事件模型——Event 模型很有效,规范并结构化用户行为之后,已在百度公司发挥到比较理想的状态,我也深刻理解了这一模型在用户行为分析上的强大之处,许多数据分析都会变得更容易。有兴趣了解的同学可以参照神策数据官网。
如何思考数据价值?围绕业务价值,数据驱动的价值有两点:一点是驱动决策,无论是帮助产品改进、运营优化、渠道分析还是商业决策,归根到底就是帮助你“拍板”的。另一点是驱动产品智能。在我看来,智能是一种学习能力,有了数据基础、套上了一定的策略算法,然后回归到产品当中让产品本身具有学习能力。
神策数据在产品上不只是提供了运营分析工具,更重要的是做底层的 PaaS 平台。以 Windows 作类比,Windows 主要做了两件事:一个是底层硬件资源的管理,通过操作系统将硬件、CPU、磁盘、内存等资源管理起来;另一个就是提供 API,让第三方开发者开发 Word、QQ、Outlook 等应用。这些上层的应用和 API 的开放让它变得更加强大。
神策数据实现数据驱动则与之如出一辙:第一层是全面采集数据源,建好底层;第二层企业可以基于 PaaS 平台进行二次开发;第三层就是在此基础上的各种应用。大家所看到以 SA(Sensors Analytics,神策分析)为代表的数据分析工具,只是 PaaS 平台中的应用之一,此外还有用户推荐、风控、数据挖掘等。而神策数据就是扮演了 Windows 的角色。
数据处理归根结底是一条“流”。需要强调的是 PaaS 的开放性、底层数据开放、查询接口开放,数据深度利用的时候就会变得非常容易。金字塔展示了数据处理流程,包括数据采集、数据传输、数据存储建模、数据查询、可视化 BI 五环节。神策数据要把数据根基打好,在此基础上可以和越来越多的 AI 公司或者可视化公司合作,丰富企业大数据应用。
如上所述,我国目前大数据行业现在所处的阶段还是非常早期,刚刚开了个头,许多围绕大数据工作的企业,包括神策数据也是其中的一员,大家都是一颗星星,具有相同的数据认知,也都是围绕某个点——推动中国企业数据化建设努力。
在这样的背景下,神策数据发起并成立了大数据星火联盟,期望围绕大数据工作企业一起联合起来服务客户。该联盟旨在加速企业在大数据领域、人工智能领域、云计算领域的创新,通过优质资源共享,助力企业完成核心业务的全面数字化和信息资源的创新应用,赋能企业数字化转型。当然,作为一个联盟,星星之火,可以燎原,这个力量会变得更加强大,也会给客户带来一些优惠的政策,后面大家可以关注神策数据的官网,相关的优惠政策会发布。
相关阅读:
【白皮书下载】《追本数源•开启产品智能化时代》| 产品指数级增长手册
标签:联盟,哪些,神策,采集,星火,埋点,企业,数据,深意 来源: https://blog.51cto.com/u_14438762/2903593