首页 > 其他分享> > 数据挖掘复习1

数据挖掘复习1

2021-07-06 15:00:07 作者：互联网

数据挖掘复习

数据挖掘的功能：描述数据中的一般性质和预测在当前数据进行归纳

数据的统计描述方式：

均值（mean）

权重：所有加权/总权重

数据的中心趋势度量

中位数（Median）数据集规模大开销大

或众数（mode）

中列数（MAX+MIN/2）

数据的离散程度

极差（MAX=MIN）最大的离散程度

五数概括：中位数，四分位数Q1Q23最大最小观测值

最小观测值：>=Q1-1.5IQR

最大观测值：<=Q1-1.5IQR

IQR=(Q3-Q2)

方差标准差是方差的平方

数据相似性计算

标称属性

d(i,j)=不相同的属性个数/总属性数

二元属性相似性：对称：对角/所有

非对称：对角/（对角+左上）

数值属性相似性：欧式距离：

曼哈顿距离： d(i,j)=|xi1-xj1|+|xi2-xj2|+....+ |xin-xjn|

切比雪夫距离(上确界距离)就是曼哈顿距离里面挑个最大的

闵可夫斯基距离（一组距离）

标准化欧氏距离：

序值属性相似性

支持度：占比和模式有用性

置信度：可信度规则确定度

标签：复习,距离,相似性,数据挖掘,对角,数据,属性
来源： https://www.cnblogs.com/kubopiy/p/14976971.html