聚类评价指标学习
作者:互联网
1.外部评价标准
https://zhuanlan.zhihu.com/p/53840697
一般分为:外部、内部、相对,这三种评价指标。
①Purity:这个计算过程没有太看懂,但是我也没有见过使用它来评价聚类效果的,并不常用。
②NMI (Normalized Mutual Information) 即归一化互信息,计算公式如下:
看不太懂它的计算过程,值越高越好。
③兰德指数 (Rand index, RI):看不明白计算过程,值越高越好;
④调整兰德指数(Adjusted Rand index, ARI):看不明白计算过程,值越高越好;
2.无label评价
https://blog.csdn.net/u012102306/article/details/52423074
//原来没有label也可以评价啊。但是应该不会特别标注的吧?
①Compactness(紧密性)(CP):CP计算 每一个类 各点到聚类中心的平均距离; CP越低意味着类内聚类距离越近;但没有考虑类间效果。
②Separation(间隔性)(SP):SP计算 各聚类中心两两之间平均距离; SP越高意味类间聚类距离越远;但没有考虑类内效果。
③Davies-Bouldin Index(戴维森堡丁指数)(分类适确性指标)(DB)(DBI):
DB计算 任意两类别的类内距离平均距离(CP)之和除以两聚类中心距离 求最大值
DB越小意味着类内距离越小 同时类间距离越大
缺点:因使用欧式距离 所以对于环状分布 聚类评测很差
④Dunn Validity Index (邓恩指数)(DVI):
DVI计算 任意两个簇元素的最短距离(类间)除以任意簇中的最大距离(类内)
DVI越大意味着类间距离越大 同时类内距离越小
缺点:对离散点的聚类测评很高、对环状分布测评效果差
//对后两个的缺点不太明白。
标签:计算,类间,距离,指标,类内,聚类,评价,CP 来源: https://www.cnblogs.com/BlueBlueSea/p/13036147.html