基本概念
作者:互联网
统计数据类型
- Numerical data: 有测量
measurement
的意义或者它们是一个计数,也叫做定量数据quantitative data
- discrete: 可数的
- continuous: 表示测量,不可数的,用一个实数区间表示 - Categorical data: 表示特征
characteristics
,也可用Numerical
值表示,但它们没有数学意义。也叫做定性数据qualitative data
或Yes/No data
- Ordinal: 混合以上两类数据。它虽属于Categorical data
,但它的值是有意义的 - 分类数据的最高效表示方式是使用稀疏张量(一种含有极少非零元素的张量),如独热编码
one-hot encoding
或词袋bag of words
- 需要的数据量和计算量大
- 矢量之间缺乏有意义的联系
- 解决:嵌入embedding
,即将大型稀疏矢量映射到一个保留语义关系的低维空间
参考资料
- 2016 | Types of Statistical Data: Numerical, Categorical, and Ordinal | Deborah J. Rumsey
- 2020 | Google machine learning
标签:Ordinal,意义,Categorical,Numerical,张量,data,基本概念 来源: https://www.cnblogs.com/yao1996/p/13958586.html