其他分享
首页 > 其他分享> > 数据处理中的准确性问题

数据处理中的准确性问题

作者:互联网

0.jpeg


摘 要

本文由神策数据联合创始人 & CTO 曹犟撰写,数据处理分为五大步骤:数据采集、数据传输(实时/批量)、数据建模/存储、数据统计/分析/挖掘、数据可视化/挖掘。曹犟结合神策数据服务于数百客户的实际案例,分条目解读了神策分析对于提高数据准确性做出的针对性技术解决方案。


1 前言


所有与数据有关的应用,不论是基础的数据统计,更复杂的数据多维分析,还是个性化推荐、用户画像等更加深入的应用,对于数据准确性都是有较高的诉求的。数据的准确性,直接影响数据应用最终的呈现效果,也从而影响基于数据的商业决策和产品智能效果。

神策分析作为新一代的用户行为分析产品,很多客户使用我们来替代上一代的流量统计产品,或作为自有数据系统的补充和延伸。在这种情况下,客户对于数据准确性自然会有不同系统之间进行对比的要求,例如,对比神策分析与上一代流量统计产品在关键指标上的差异,对比神策分析与自有数据系统的数据细节差异等。

0.png

在协助客户进行这些数据对比的时候,我们也对数据处理过程中的准确性问题有了更加系统的认识,并且在整体的产品和系统设计上也做了很多相应的处理,在这里一并分享给大家,希望能够对大家有所启发。需要特别说明的是,数据伪造、窃取等问题,在数据采集中的安全与隐私(见官网博客)这篇文章里面已有讨论,本文暂时不做深入展开。

2 数据处理五个步骤


对于大部分数据应用来说,数据处理都可以划分为如下五个步骤:

0.png

在这五个步骤中的每一步,都会面临数据准确性的问题,并且神策分析也相应地进行了针对性的处理和应对,下面结合我们之前的一些实际的应对案例,进行详细介绍。

2.1 采集环节的准确性问题与应对

数据采集这个环节,一般而言,会是准确性最常出问题的环节之一。我们在实际服务客户,进行数据校验和对比的过程中,也积累了相当多的经验,在这里共享给大家。

在这个环节,准确性问题会有两大类:

对于采集环节这些人为的或者非人为的数据异常的因素,基于我们以往处理这方面问题的经验,我们在产品和服务层面,提供了以下方案进行处理:

2.2 传输环节的准确性问题与应对

传输环节,一般主要是指通过客户端 SDK 等采集到数据,然后通过网络发送给数据平台。由于一般是走 HTTP 协议通过公网进行传输,所以肯定会面临网络异常等错误。

对于 JS SDK 而言,由于语言特性与网页本身的处理机制,目前并没有太好的方案来解决网络异常等。根据我们这么多年的处理经验,JS SDK 一般会由于网络原因带来 3% 到 5% 左右的数据丢失。

对于 iOS 和安卓 SDK,相比较 JS SDK,在网络异常时可以有更好的处理方案,例如,当由于某些数据没有成功时,依然缓存在本地,直至发送成功时才从本地把这些数据去掉。所以,一般而言,iOS 和安卓 SDK 的数据发送会有 99% 以上的完整性。但是,在某些恶劣的网络条件下,有时候依然会出现,数据已经成功发送了,但是本地得到的接口返回依然是错误,从而下次会重复发送这些数据,导致接收到的数据会重复。神策分析在接收端有相应的去重逻辑,解决由这种原因带来的数据重复问题。

当然,在神策分析产品发布之初,我们就提供了服务端数据采集的解决方案,让客户可以通过内网来传输数据。所以,我们一向推崇,如果同一个行为在客户端和后端都能够采集到,那么优先推荐在服务端采集,通过内网而不是公网传输,能够有效地规避传输中的网络异常问题,保证数据的准确性。当然,附带地,也一并解决了传输过程中的安全与隐私问题。

2.3 建模与存储环节的准确性问题与应对

建模与存储环节,主要碰到的问题大概有:

针对这些问题,神策分析采取了如下一些方案进行应对:

2.4 统计分析环节的准确性问题与应对

我们在协助客户进行数据对比时,经常也会在这个环节碰到一些准确性方面的问题,最常见的有:

对于这些问题,我们是采用了如下一些方案:

下面是几个我们协助客户进行数据对比时的真实案例:

2.5 可视化与反馈环节的准确性问题与应对

在这个环节,一些常见的准确性问题包括:

针对这些问题,神策分析采取了如下一些应对方案:


3 总结


简而言之,数据准确性是一切数据应用的前提,神策分析作为一款商业用户行为分析软件,自然也为此进行了很多的投入。结合我们在为数百家客户服务的过程,以及之前整个团队在百度从事大数据相关工作的经验,我们对于处理数据准确性问题已经积累了丰富的经验。一方面,我们会根据这些经验进一步优化和改进我们的产品,另一方面,我们也会将这些经验迁移到我们客户的实际使用场景,为我们客户的数据校对工作提供最为细致的服务。

 

你或许还想了解 0.png

同样是私有化部署,300 家行业领先企业告诉你差距在哪儿

解析常见的数据分析模型——行为事件分析

木七七施辰刚:我是这样将玩家次留提升了 5% 的

深度案例 | Formax 集团如何构建高效金融客户分析体系?

神策数据与 IPIP.NET 强强联合,精准 IP 让用户行为分析更精确




0.jpeg

标签:分析,问题,神策,准确性,采集,数据处理,数据,SDK
来源: https://blog.51cto.com/u_14438762/2903552