数据挖掘复习
数据挖掘的功能:描述 数据中的一般性质和预测在当前数据进行归纳
数据的统计描述方式:
均值(mean)
权重:所有加权/总权重
数据的中心趋势度量
中位数(Median)数据集规模大开销大
或众数(mode)
中列数(MAX+MIN/2)
数据的离散程度
极差(MAX=MIN)最大的离散程度
五数概括:中位数,四分位数Q1Q23最大 最小观测值
最小观测值:>=Q1-1.5IQR
最大观测值:<=Q1-1.5IQR
IQR=(Q3-Q2)
方差 标准差是方差的平方
数据相似性计算
标称属性
d(i,j)=不相同的属性个数/总属性数
二元属性相似性: 对称:对角/所有
非对称:对角/(对角+左上)
数值属性相似性: 欧式距离:
曼哈顿距离: d(i,j)=|xi1-xj1|+|xi2-xj2|+....+ |xin-xjn|
切比雪夫距离(上确界距离)就是曼哈顿距离里面挑个最大的
闵可夫斯基距离(一组距离)
标准化欧氏距离:
序值属性相似性
支持度:占比和模式有用性
置信度:可信度 规则确定度
标签:复习,距离,相似性,数据挖掘,对角,数据,属性
来源: https://www.cnblogs.com/kubopiy/p/14976971.html
本站声明:
1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。