kshjsytgs
作者:互联网
1、概述
可视化定义
:可视化(Visualization)是利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。
info vis :
信息可视化是通过使用交互式可视界面进行抽象数据的通信。
sci vis :
科学可视化专注于使用计算机图形来创建视觉图像,以帮助理解科学概念或结果的复杂的,通常是大量的数字表示形式。
数据来源:扫描设备 仿真
区别:
是给定的(科学)还是选择的的(信息)
•信息可视化:如何表示
–选择,执行,评估
–巨大的可能性空间:随机游走无效
–需要设计准则
–广泛的应用领域
–离散数学:统计,图论,组合学,…
•科学:重点关注算法
–少数应用程序域 • 体积渲染(医学成像)•流量(流体动力学)
–连续数学:信号处理,流程拓扑,网格划分,…
2、箱线图
boxplot:
将n个数从小到大排列:Q2为n个数组成的数列的中数(Median);
当n为奇数时,中数Q2将该数列分为数量相等的两组数,每组有 (n-1)/2 个数,Q1为第一组 (n-1)/2 个数的中数,Q3为为第二组(n-1)/2个数的中数;
当n为偶数时,中数Q2将该数列分为数量相等的两组数,每组有n/2数,Q1为第一组 n/2个数的中数,Q3为为第二组 n/2 个数的中数。
IQR=Q3-Q1
辛普森悖论:在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。分组后其中的主要群组的影响权重更大。反过来就是样本相对较小的群组虽然可能在数据指标上表现更高,但是此时对于总体指标表现影响较小,从而形成了辛普森悖论。
为了避免辛普森的悖论导致我们得出两个相反的结论,最直接的方法是决定分组还是聚合
①一般都是遭遇比率类的问题;
②辛普森悖论和样本大小存在一定关系;
③辛普森悖论其实受“众数”影响较大,众数的比率指标往往反映了整体的比率指标情况,那么在分析决策时候,我们要选择的就是,是否要信赖分组中“众数群体”的表现,作为决策指引;
④辛普森悖论跟混淆变量有关,需要控制变量,找到实际的相关因素,拆开表面数据;
⑤方法上可以多用散点图来观察问题。
histogram:
直方图是数值数据分布的精确图形表示。 这是一个连续变量(定量变量)的概率分布的估计
为了构建直方图,第一步是将值的范围分段,即将整个值的范围分成一系列间隔,然后计算每个间隔中有多少值。 这些值通常被指定为连续的,不重叠的变量间隔。
间隔必须相邻,并且通常是(但不是必须的)相等的大小。
3、平行坐标 散点图
平行坐标图
平行坐标图(parallel coordinates
plot)是对于具有多个属性问题的一种可视化方法,下图为平行坐标图的基本样式,数据集的一行数据在平行坐标图中用一条折线表示,纵向是属性值,横向是属性类别(用索引表示),如下图,一条数据[1
3 2 4]对应图中的折线。这条折线是根据属性的索引值和属性值画出来的。
限制:
1 、Hard to scale to large scale data sets!
2 、Certain clustering technique is needed + enhanced visual representation for the visualization of the obtained clusters!
散点图矩阵:
只能展示两个变量
画得矩阵很多
两者对应:
4、guide
truth:
宽高比计算
lie factor计算:
LF =Size of effect in graphic / Size of effect in data
Size of effect = Percentage change
避免失真:
最大化数据墨水比:Data-Ink Ratio =Data-Ink/Total Ink in Graphic
避免图表垃圾
Rainbow Colormap的问题:缺少秩序Lack of perceptual ordering
- People segment colors into classes人们将颜色分为几类
- Hues are not naturally ordered色相不是自然排列的
- Different lightness emphasizes certain scalar values不同的亮度强调某些标量值
- Low luminance colors (blue) hide high frequencies低亮度颜色(蓝色)隐藏高频
tufte的四个原则:
• Graphical integrity 图形完整性
• The lie factor 谎言因素
• Maximize data-ink ratio最大化数据墨水比
• Avoid harmful chart junk 避免有害的图表垃圾
5、Color in Visualization
目的(了解):
To label标记
To measure测量
To represent and imitate代表和模仿
To enliven and decorate充满活力和装饰
人脑感知的pipeline(一条龙服务):
1、Light 光
2、Cone Response锥体响应
3、Opponent Signals对手信号
4、Color Perception颜色感知
5、Color Appearance 颜色外观
6、Color Cognition 颜色认知
color space:
LAB由三个要素组成,一个要素是亮度(L),a 和b是两个颜色通道。a包括的颜色是从深绿色(低亮度值)到灰色(中亮度值)再到亮粉红色(高亮度值);b是从亮蓝色(低亮度值)到灰色(中亮度值)再到黄色(高亮度值)。因此,这种颜色混合后将产生具有明亮效果的色彩。
Classing Quantitative Data:
- Equal interval (arithmetic progression)
- Quantiles (recommended)
- Standard deviations
- Clustering (Jenks’ natural breaks / 1D K-Means)
Minimize within group variance
Maximize between group variance
C
6、Perception
Design Principles:
1、Expressiveness表现力:
A set of facts is expressible in a visual language if the sentences (i.e. the visualizations) in the language express all the facts in the set of data,and only the facts in the data.表示一组数据中的所有事实,而仅表示数据中的事实
Tell the truth and nothing but the truth(don’t lie, and don’t lie by
omission)
2、Effectiveness效用:
A visualization is more effective than another visualization if the information conveyed by one visualization is more readily perceived than the information in the other visualization.如果一个可视化视图传递的信息比另一可视化视图中的信息更容易感知,则可视化视图比另一可视化视图更有效。
Use encodings that people decode better (where better = faster and/or
more accurate)
Graphical Perception 了解
The ability of viewers to interpret visual(graphical) encodings of information and thereby decode information in graphs.
JND了解
Gestalt Principles格式塔原则:
Figure/Ground
Proximity
Similarity
Symmetry
Connectedness
Continuity
Closure
Common Fate
Transparency
7、降维
PCA:
减少数据集的维数,同时保持数据集的对方差贡献最大的特征。
从列的角度研究,也就是研究单个特征之间的相关性,导出协方差矩阵
1、对X均值化
2、求协方差矩阵
3、求出协方差矩阵的特征值及对应的特征向量;
4 、将特征值按照从大到小的顺序排序,选择其中最大的k个,然后将其对应的k个特征向量按行排列成矩阵,取前 k 行组成矩阵 P。 Y=PX即为降维到k 维后的数据。
MDS:在新的低维空间中,所有样本相互之间的距离等于(或最大程度接近)原空间中的距离(默认欧氏距离)
从行的角度,研究样本之间的相似性,导出内积矩阵
(1)计算原始空间中数据点的距离矩阵。(2)计算内积矩阵C=XTX 。
(3)对矩阵C进行特征值分解,获得特征值矩阵和特征向量矩阵。
(4)取特征值矩阵最大的前K项及其对应的特征向量 。
T-SNE(非线性降维):
在高维空间相似的数据点,映射到低维空间距离也是相似的。常规的做法是用欧式距离表示这种相似性,而SNE把这种距离关系转换为一种条件概率来表示相似性,用KL距离衡量两个分布之间的相似性,再利用随机梯度下降算法训练。T-SNE用T分布代替高斯分布,用对称SNE代替SNE。
8、graph
graph设计美学:
交叉少,面积小,宽高比不极端等
力导向图:nodelink
我们将节点想象为物理粒子,它们以随机位置初始化,但在各种力的作用下逐渐位移,直到它们到达最终位置。力由所选算法定义,并且通常会尝试将相邻节点定位为彼此靠近,但不要太靠近
具体来说,假设我们模拟了两个力:所有节点对之间的排斥力和所有相邻节点对之间的弹力。
标签:矩阵,视图,可视化,中数,kshjsytgs,数据,节点 来源: https://blog.csdn.net/qq_43668519/article/details/112311830