其他分享
首页 > 其他分享> > 基于密度的聚类如何工作(数据挖掘)

基于密度的聚类如何工作(数据挖掘)

作者:互联网

基于密度的聚类如何工作(数据挖掘)

Photo by Ganapathy Kumar on 不飞溅

  1. SSDBCODI:集成了异常值检测的半监督密度聚类( arXiv )

作者 : Jiahao Deng , 伊莱·T·布朗

抽象的 : 聚类分析是机器学习中的关键任务之一。传统上,聚类一直是一项独立的任务,与异常值检测分开。由于异常值会显着削弱聚类的性能,因此少数算法尝试在聚类过程中加入异常值检测。然而,这些算法中的大多数都是基于无监督的基于分区的算法,例如 k-means。鉴于这些算法的性质,它们通常无法处理复杂的非凸形状簇。为了应对这一挑战,我们提出了 SSDBCODI,一种基于密度的半监督算法。 SSDBCODI 结合了基于密度的算法的优势,能够处理复杂形状的集群,半监督元素可以灵活地根据一些用户标签调整聚类结果。我们还将异常值检测组件与聚类过程合并。潜在的异常值是根据过程中产生的三个分数来检测的:(1)可达性分数,它衡量一个点对标记的正常对象的密度可达性,(2)局部密度分数,它衡量一个点的相邻密度数据对象,以及 (3) 相似度分数,它衡量一个点与其最近的标记异常值的接近程度。然后在接下来的步骤中,根据这三个分数为每个数据实例生成实例权重,然后用于训练分类器以进行进一步的聚类和异常值检测。为了增强对所提出算法的理解,为了我们的评估,我们在多个数据集上针对一些最先进的方法运行了我们提出的算法,并分别列出了除聚类之外的异常值检测结果。我们的结果表明,我们的算法可以用一小部分标签实现出色的结果

2.一种使用基于密度的特征聚类的混合类型数据的监督特征选择方法( arXiv)

作者 : Xuyang Yan , 姆林莫伊萨卡 , 比尼亚姆·格布鲁 , 沙布南·纳兹米 , 阿卜杜拉·霍迈法尔

抽象的 : 特征选择方法被广泛用于解决高维数据分类中的高计算开销和维度灾难。大多数传统的特征选择方法专注于处理同质特征,而现实世界的数据集通常具有连续特征和离散特征的混合。最近一些混合类型的特征选择研究只选择与类标签高度相关的特征,而忽略了特征之间的冗余。确定合适的特征子集也是一个挑战。在本文中,提出了一种使用基于密度的特征聚类(SFSDFC)的监督特征选择方法,以获得混合类型数据的合适的最终特征子集。 SFSDFC 使用一种新颖的基于密度的聚类方法将特征空间分解为一组不相交的特征簇。然后,采用有效的特征选择策略从这些特征簇中获得具有最小冗余的重要特征子集。使用 13 个真实世界的基准数据集对 SFSDFC 进行了广泛的实验以及与五种最先进方法的比较研究,结果证明了 SFSDFC 方法的有效性

3. 基于密度的聚类方法的快速密度估计( arXiv )

作者 : Difei Cheng , Ruihang Xu , Bo Zhang , Ruinan Jin

抽象的 : 基于密度的聚类算法被广泛用于模式识别和机器学习中的聚类发现,因为它们可以处理非超球面聚类并且对处理异常值具有鲁棒性。然而,基于密度的算法的运行时间很大程度上取决于寻找固定半径附近的邻居并计算密度,这非常耗时。同时,传统的使用索引技术(如KD树)的加速方法在处理高维数据时效果不佳。在本文中,我们利用快速主成分分析技术结合数据的主要属性提供的几何信息,提出了一种快速区域查询算法,称为快速主成分分析剪枝(称为FPCAP),可以处理高维数据并轻松应用于基于密度的方法,以在查找邻居和估计密度时修剪不必要的距离计算。作为基于密度的聚类方法中的一种应用,FPCAP 方法与带噪声应用的基于密度的空间聚类(DBSCAN)算法相结合。然后,得到改进的DBSCAN(称为IDBSCAN),它保留了DBSCAN的优点,同时大大减少了冗余距离的计算。在七个基准数据集上的实验表明,该算法显着提高了计算效率

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/11936/39090408

标签:基于,特征选择,特征,算法,密度,聚类,数据挖掘
来源: https://www.cnblogs.com/amboke/p/16654224.html