数据可视化:如何选择图表
作者:互联网
在现今这个时代,数据可视化已经成为办公标配,很多策划、运营、分析师都需要制作以图表为主要元素的数据报告。数据报告的制作工具有很多,其中excel是大家比较常用的;另外很多低代码配置工具也渐渐开始流行起来,比如图表秀、网易有数、镝数、FineReport、Tableau等。这些工具提供了丰富多元的图表,覆盖了各种各样的使用情景;但也因为多,在图表选择上也带来了门槛。如果把“单线折线图”和“多线折线图”当做不同图表来算的话,目前常见的图表就多达70种。针对这样的情况,我分享一些自己选图表的经验,希望能给大家的工作带来一点帮助。
图表选择的本质:将数据分析结论如实、直观的展示出来。
图表选择的步骤:
- 明确数据分析结论;
- 梳理数据表结构;
- 根据数据分析结论和数据表结构,选择合适的图表。
接下来,我针对每个步骤进行详细说明:
【步骤一:明确数据分析结论】
基于分析目的,大致可划分出八种数据分析结论:
一、看落差
定义:通过比较值的大小,帮助读者了解事物之间的差距
问题:
1、哪个多,哪个少?
2、多多少,少多少?
典型图表:
二、看趋势
定义:展示某个序列的数值变化过程,以此预测该序列的发展趋势(如时间序列,帮助读者了解历史的变化,预测未来的趋势)。
问题:
1、整体变化是上升、下降,还是波动?
2、上升了多少,下降了多少,哪个序列段在波动?
典型图表:
三、看构成
定义:帮助读者了解一个整体由哪些部分构成,以及每个部分的各自占比。
问题:
1、由几个部分构成,主要组成部分是什么?
2、各部分的占比分别是多少?
典型图表:
四、看位置
定义:帮助读者了解事物在空间上所处的相对位置,一般用于地理位置的呈现。
问题:
1、事物之间的相对位置,即谁在谁的前/后/上/下/左/右?
- 事物之间的距离值?
典型图表:
五、看分布
定义:关注数据整体情况,如最大值、最小值,平均数、中位数、众数、离散程度、异常值等。往往会通过定量值在数轴上各间隔间的频次分布,帮助读者识别事物在某一维度上的分布形状、主要集中区域、异常情况等。
问题:
1、大致的分布情况是否服从某种规范(如平均分布、正态分布),主要集中区域,异常情况突出吗?
2、在每个间隔上的具体频次各是多少,哪些间隔不服从规范,哪些间隔有异常值,异常值分别是多少?
典型图表:
六、看关系
定义:帮助人们了解变量之间的关系(包括正负相关、层级、流向等不同关系),发现变量间的相关性、上下层级和分流比例等。
问题:
1、数据之间存在哪种关系,如正负相关、层级、流向等?
2、数据之间的关联程度、各层级流失率、起点分流到不同终点的比例?
典型图表:
七、看重点
定义:当某个数据很重要时,帮助读者锁定、记住它。
问题:
1、这个重要数据是什么(一般要突出维度)?
- 数据值是多少(一般要突出度量)?
典型图表:
八、看好坏
定义:通过基准值/线,帮助读者判断数据的好与坏。
问题:
1、这个数据是好还是坏?
2、数据比标准高了多少,低了多少?
典型图表:
【步骤二:梳理数据表结构】
基于分析目的,大致可划分出八种数据分析结论:
数据表通常由三个部分组成:维度、度量、数据实例。
如上图所示:左边这列字段是字符串,这样的字段通常就是维度,右边这列字段是数值,这样的字段通常是度量。首行下的具体数据内容,我们可以称为数据实例。
有些表会复杂一些,有多个维度和多个度量,但我们可以看到度量通常是独立的,彼此之间不相关;但维度通常是有层级关系的,一层套一层。
总的来说,按照维度和度量的列数不同,数据表结构可以分为:单维度单度量、单维度双度量、单维度多度量、双维度单度量、多维度单度量、多维度多度量。
除此之外,数据表结构还有一些其他特征会影响图表选择,如维度名称的总长度、最大值和最小值之间的差距、数据实例的行数等。
【步骤三:根据数据分析结论和数据表结构,选择合适的图表】
接下来,我以“看落差-柱状图”为例来具体讲讲选择图表的全过程:
1、明确数据分析结论
(1)假设我的数据分析结论是要“看落差”,即回答一系列同类事物中,哪个多/哪个少、多多少/少多少的问题。
(2)基于上回分享的内容,“看落差”的典型图表类型就是柱状图。
2、梳理数据表结构
根据维度和度量的列数不同,确认数据表结构属于哪种类型:单维度单度量、单维度双度量、单维度多度量、双维度单度量、多维度单度量、多维度多度量。
3、根据数据分析结论和数据表结构,选择合适的图表
3.1 数据表结构:单维度单度量
推荐图表:基本柱状图
如果:维度列数>10
那么:基本柱状图 → 基本条形图
如果:维度名称长度>单柱宽
那么:基本柱状图 → 基本条形图
如果:柱宽及间隔之和>呈现框长度
那么:基本柱状图 → 径向柱状图
如果:条宽及间隔之和>呈现框长度
那么:基本条形图 → 径向条形图
如果:度量最大值/最小值>10
那么:径向柱形图 → 玫瑰面积图
3.2 数据表结构:单维度双度量
推荐图表:分组柱状图
如果:维度名称字符长度>单柱宽
那么:分组柱状图 → 分组条形图
如果:柱宽及间隔之和>呈现框长度
那么:分组柱状图 → 分组径向柱状图
如果:强调度量间的反向关系
那么:分组条形图 → 双向条形图
3.3 数据表结构:单维度多度量
推荐图表:分组柱状图
如果:强调度量间的合并关系
那么:分组柱状图 → 简单堆叠柱状图
如果:维度列数>10
那么:分组柱状图 → 分组条形图
如果:强调度量间的合并关系
那么:分组条形图 → 简单堆叠条形图
如果:柱宽及间隔之和>呈现框长度
那么:分组柱状图 → 分组径向柱状图
如果:强调度量间的合并关系
那么:分组径向柱状图 → 简单堆叠式径向柱状图
如果:度量之和的最大值/最小值>10
那么:简单堆叠式径向柱状图 → 简单堆叠式玫瑰面积图
3.4 数据表结构:双维度单度量
推荐图表:矩形树图
(矩形树图)
3.5 数据表结构:多维度单度量
推荐图表:图表钻取
3.6 数据表结构:多维度多度量
我暂时想不到什么好办法,先用表格直接展示吧。因为在一个图表里展示太多信息,一般超过5个信息,这个图表的解读性就大打折扣了。
综上所述,把前面的图表选择汇总成一个总览路径图,可以看出第一列就是数据表结构,第二列和第三列都是维度相关因素,第三列就是度量因素:
标签:选择,图表,数据表,柱状图,可视化,维度,条形图,度量 来源: https://www.cnblogs.com/IT-Evan/p/15607709.html