编程语言
首页 > 编程语言> > 风控模型中的五大类聚类算法介绍

风控模型中的五大类聚类算法介绍

作者:互联网

关注“金科应用研院”,回复“CSDN”

领取“风控资料合集”

聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。

聚类分析的一个重要用途就是针对目标群体进行多指标的群体划分。对目标群体的分类是为了精细化经营,个性化运营的基础和核心,只有进行了正确的分类,才可以有效进行个性化和精细化的运营,服务及产品支持等。

聚类分析的算法可以分为五类:划分方法、层次方法、基于密度方法、基于网格方法和基于模型方法。以下是常用聚类算法分类图:

图片

一、划分法

原理:首先要确定一堆散点最后聚成几类,然后挑选几个点作为初始中心点,再然后依据预先定好的启发式算法给数据点做迭代重置,直到最后到达“类内的点都足够近,类间的点都足够远”的目标效果。

K-MEANS算法

是一种典型的划分聚类算法,它用一个聚类的中心来代表一个簇,即在迭代过程中选择的聚点不一K-MEANS定是聚类中的一个点,该算法只能处理数值型数据

K-MEDOIDS算法

K-MEDOIDS是以集群点中最中心(中位数)的对象为参考进行聚类

CLARANS算法

CLARANS是分割方法中基于随机搜索的大型应用聚类算法。在分割方法中最早提出的一些算法大多对小数据集合非常有效,但对大的数据集合没有良好的可伸缩性。

图片

以K-MEANS算法为例:

K-MEANS算法流程:
(1)假如S区域有100个客户,1个黑点表示1个客户;我想在S区域开3家奶茶店,那我就随机在地图上选择3个开店位置,三家奶茶店可以分别表示为K1,K2,K3;

如图所示:

图片

为了更快捷的给100个客户配送奶茶,奶茶店必须开在中心位置,每家奶茶店的初始地代表了一个的中心位置;对剩余的客户,根据其与奶茶店中心的距离,将客户分配给最近的奶茶店管理配送;

如图所示:

图片

(3)重新计算每个客户距离奶茶店的平均值,更新为新的中心点,即奶茶店的位置;
(4)不断重复(2), (3), 直到达到某个终止条件(不再有重新的分配,达到最大迭代次数、最小误差变化等)。

K值的选择:
k 值对最终结果的影响至关重要,而它却必须要预先给定。给定合适的 k 值,需要先验知识,凭空估计很困难,或者可能导致效果很差。

当你想要确定最优聚类数K时,有一个值得一试的方法 - “肘部法则(Elbow method)”。该方法所做的就是不断的改变K值(from 1 to x),执行k-均值,然后画出代价函数与K值的变化曲线,选择“肘点处”的值作为K的取值。

K-Means算法的十大用例

K-means算法通常可以应用于维数、数值都很小且连续的数据集,比如:从随机分布的事物集合中将相同事物进行分组。

1.文档分类器

根据标签、主题和文档内容将文档分为多个不同的类别。这是一个非常标准且经典的K-means算法分类问题。首先,需要对文档进行初始化处理,将每个文档都用矢量来表示,并使用术语频率来识别常用术语进行文档分类,这一步很有必要。然后对文档向量进行聚类,识别文档组中的相似性。这里是用于文档分类的K-means算法实现案例。

2.物品传输优化

使用K-means算法的组合找到无人机最佳发射位置和遗传算法来解决旅行商的行车路线问题,优化无人机物品传输过程。这是该项目的白皮书。

3.识别犯罪地点

使用城市中特定地区的相关犯罪数据,分析犯罪类别、犯罪地点以及两者之间的关联,可以对城市或区域中容易犯罪的地区做高质量的勘察。这是基于德里飞行情报区犯罪数据的论文。

4.客户分类

聚类能过帮助营销人员改善他们的客户群(在其目标区域内工作),并根据客户的购买历史、兴趣或活动监控来对客户类别做进一步细分。这是关于电信运营商如何将预付费客户分为充值模式、发送短信和浏览网站几个类别的白皮书。对客户进行分类有助于公司针对特定客户群制定特定的广告。

5.球队状态分析

分析球员的状态一直都是体育界的一个关键要素。随着竞争越来愈激烈,机器学习在这个领域也扮演着至关重要的角色。如果你想创建一个优秀的队伍并且喜欢根据球员状态来识别类似的球员,那么K-means算法是一个很好的选择。具体细节和实现请参照这篇文章。

6.保险欺诈检测

机器学习在欺诈检测中也扮演着一个至关重要的角色,在汽车、医疗保险和保险欺诈检测领域中广泛应用。利用以往欺诈性索赔的历史数据,根据它和欺诈性模式聚类的相似性来识别新的索赔。由于保险欺诈可能会对公司造成数百万美元的损失,因此欺诈检测对公司来说至关重要。这是汽车保险中使用聚类来检测欺诈的白皮书。

7.乘车数据分析

面向大众公开的Uber乘车信息的数据集,为我们提供了大量关于交通、运输时间、高峰乘车地点等有价值的数据集。分析这些数据不仅对Uber大有好处,而且有助于我们对城市的交通模式进行深入的了解,来帮助我们做城市未来规划。

8.网络分析犯罪分子

网络分析是从个人和团体中收集数据来识别二者之间的重要关系的过程。网络分析源自于犯罪档案,该档案提供了调查部门的信息,以对犯罪现场的罪犯进行分类。这是一篇在学术环境中,如何根据用户数据偏好对网络用户进行 cyber-profile的论文。

9.呼叫记录详细分析

通话详细记录(CDR)是电信公司在对用户的通话、短信和网络活动信息的收集。将通话详细记录与客户个人资料结合在一起,这能够帮助电信公司对客户需求做更多的预测。在这篇文章中,你将了解如何使用无监督K-Means聚类算法对客户一天24小时的活动进行聚类,来了解客户数小时内的使用情况。

10.IT警报的自动化聚类

大型企业IT基础架构技术组件(如网络,存储或数据库)会生成大量的警报消息。由于警报消息可以指向具体的操作,因此必须对警报信息进行手动筛选,确保后续过程的优先级。对数据进行聚类可以对警报类别和平均修复时间做深入了解,有助于对未来故障进行预测。

英文原文来源:https://dzone.com/articles/10-interesting-use-cases-for-the-k-means-algorithmspm=a2c4e.11153959.blogcont573745.17.6f9741e21SXyGP

二、层次法

原理:试图在不同层次上对数据集进行划分,从而形成树形的聚类结构。数据集的划分可采用“自底向上”的聚合策略和“自顶向下”的拆分策略。

BIRCH算法

BIRCH算法利用树结构对数据集进行处理,叶结点存储一个聚类,用中心和半径表示,顺序处理每一个对象,并把它划分到距离最近的结点,该算法也可以作为其他聚类算法的预处理过程。

CURE算法

采用抽样技术先对数据集随机抽取样本,再采用分区技术对样本进行分区,然后对每个分区局部聚类,最后对局部聚类进行全局聚类。

CHAMELEON算法

CHAMELEON,变色龙算法,属于层次聚类算法领域。一种层次聚类算法,它采用动态建模来确定一对簇之间的相似度。它可以自动地、适应地合并簇,对各种奇葩的形状也能应对自如。

图片

三、基于密度的方法

原理:定一个距离半径,最少有多少个点,然后把可以到达的点都连起来,判断为同类。

DBSCAN算法

这类方法采用空间索引技术来搜索对象的邻域,将簇看做是数据空间中被低密度区域分割开的稠密对象区域。

OPTICS算法

OPTICS算法结合了聚类的自动性和交互性,先生成聚类的次序,可以对不同的聚类设置不同的参数,来得到用户满意的结果。

DENCLUE算法

DENCLUE是一种基于一组密度分布函数的聚类算法。将每个数据点的影响用一个数学函数形式化地模拟出来,聚类簇通过密度吸引点(全局密度函数的局部最大值)来确定。

图片

四、基于网格的方法

原理:将数据空间划分为网格单元,将数据对象集映射到网格单元中,并计算每个单元的密度。根据预设的阈值判断每个网格单元是否为高密度单元,密度足够大的网格单元形成簇。

STING算法

STING是一种基于网格的多分辨率的聚类技术,它将输入对象的空间区域划分成矩形单元,空间可以用分层和递归方法进行划分。

CLIQUE算法

CLIQUE算法是基于网格的空间聚类算法,但它同时也非常好的结合了基于密度的聚类算法,因此既能够发现任意形状的簇,又可以像基于网格的算法一样处理较大的多维数据。

WAVE-CLUSTER算法

WAVE-CLUSTER是一种多分辨率的聚类算法,它首先通过在数据空间上强加一个多为网格结构来汇总数据,然后采用一种小波变换来变换原特征空间,在变换后的空间中找到密集区域。

图片

五、基于模型的方法

原理:为每簇假定了一个模型,寻找数据对给定模型的最佳拟合,这一类方法主要是指基于概率模型的方法和基于神经网络模型的方法,尤其以基于概率模型的方法居多。

GMM

基于概率模型,将数据分解为若干个基于高斯概率密度函数形成的模型

神经网络SOM

SOM人工神经网络是一个可以在一维或二维的处理单元阵列上,形成输入信号的特征拓扑分布,网络模拟了人类大脑神经网络自组织特征映射的功能。

图片

以GMM为例:

图片

图1

如图1,肉眼一看图中的点明显分成两个聚类。这两个聚类中的点分别通过两个不同的正态分布随机生成而来。但是如果没有GMM,那么只能用一个的二维高斯分布来描述图1中的数据。图1中的椭圆即为二倍标准差(标准差表示的就是样本数据的离散程度)的正态分布椭圆,这显然不太合理,毕竟在我们看来就觉得应该把它们分成两类。

图片

图2

这时候就可以使用GMM了!如图2,数据在平面上的空间分布和图1一样,这时使用两个二维高斯分布来描述图2中的数据,分别记为N(μ1 , Σ1)和N(μ2 , Σ2)。

可以看到图中使用两个二维高斯分布的椭圆,来描述图中的数据显然更合理。实际上图中的两个聚类的中的点是通过两个不同的正态分布随机生成而来。

如果将两个二维高斯分布N(μ1 , Σ1)和N(μ2 , Σ2)合成一个二维的分布,那么就可以用合成后的分布来描述图2中的所有点。最直观的方法就是对这两个二维高斯分布做线性组合,用线性组合后的分布来描述整个集合中的数据。这就是高斯混合模型(GMM)。

统计GMM计算公式:

设有随机变量X,则混合高斯模型可以用下式表示:

图片

其中N(x | μk , Σk)称为混合模型中的第k个分量(component)。如前面图2中的例子,有两个聚类,可以用两个二维高斯分布来表示,那么分量数K=2. πk是混合系数(mixture coefficient),且满足:

图片

实际上,可以认为πk就是每个分量N(x | μk , Σk)的权重。

结论

聚类分析是数据挖掘领域研究的重要分支,聚类分析广泛应用于许多领域,比如统计学、机器学习、空间数据库技术、生物学以及市场营销等。本文介绍了基于5种聚类方法,主要介绍了其中具有代表性的算法K-Means算法和基于模型的聚类方法。分析了各类算法的优缺点和特性,对于不同的问题应采用不同的聚类算法。

例如,我们可以根据各个银行网点的储蓄量、人力资源状况、营业面积、特色功能、网点级别、所处功能区域等因素情况,将网点分为几个等级,再比较各银行之间不同等级网点数量对比状况。

在实际应用中,聚类算法的选择需要取决于数据的类型、聚类的目的,结合算法的优缺点选择合适的算法才能获得理想的聚类效果。

图片

如果你喜欢、想要看更多的干货类型的文章,可以把公众号设为星标

标签:基于,方法,五大类,网格,风控,算法,聚类,数据
来源: https://blog.csdn.net/BiAnTi/article/details/122321970