Sparse Modeling-based Sequential Ensemble Learning for Effective Outlier Detection
作者:互联网
基于稀疏建模的序列集成学习在高维数值数据离群点检测中的应用
— 2018 发表于AAAI(CCF A)
目录
Abstract
现实高维数据中大量的不相关或噪声特征对基于子空间/特征选择的高维离群点检测(又称离群点评分)方法提出了极大的挑战。这些方法通常独立地执行两个相关的任务:相关特征子集搜索和离群点评分,因此可能会保留与评分方法无关的特征/子空间,导致检测性能的下降。
本文介绍了一种新的基于序列集成的框架SEMSE及其实例CINFO,来解决上面的问题。SEMSE学习序列集成,以离群值作为伪目标特征,通过迭代稀疏建模使得 特征选择 和 离群值评分 相互细化。
CINFO通过使用三个连续的递归组件来实例化SEMSE构建序列集成:CINFO首先给定特征子集上现有的离群点一个得分方法输出的离群值,然后定义了一种基于Cantelli不等式的离群值阈值函数,来选择具有假阳性上界的离群点候选。然后,通过将离群值分数作为目标特征,将原始特征作为离群值候选集上的预测值来执行基于lasso的稀疏回归,以获得为离群值方法定制的特征子集。我们的实验表明,与原始版本和三个最先进的竞争对手相比,CINFO支持的两种不同的离群值评分方法:(i)在11个真实生活中的高维数据集上表现显著更好,(ii)对噪声特征有更好的恢复能力。
Introduction
高维数据在现实生活中无处不在,例如生物信息学中数以千计的分子或基因表达特征,以及股票市场监控中数以百万计的交易行为。识别明显偏离大多数数据对象的离群值可以提供对这些应用程序的重要见解。例如,检测异常基因表达有助于疾病的早期治疗;识别异常交易可以发出滥用和操纵交易行为的信号。
然而,识别高维数值数据中的异常值是一项具有挑战性的任务。具体来说,高维数据带来了以下两大挑战。(i) 它通常包含大量不相关的特性。不相关特征将异常值掩盖为正常对象,因此它们是异常值检测(也称为异常值评分)的“噪声”。不相关的特征也构成了“维度诅咒”的主要原因。(ii)候选特征子集的数目随着维数的增加呈指数增长,这给特征空间的完全搜索带来了很大的困难。
为了检测上述高维数据中的离群值,基于子空间/特征选择的方法是主要的解决方案。他们搜索相关特征子集,对这些相关特征子集应用离群点检测方法,以减轻不相关特征带来的负面影响。然而,这些方法通常将子空间搜索与随后的离群点评分方法分开。因此,它们可能保留与评分方法无关的特征子集,并且异常值评分方法的结果检测性能在很大程度上是有偏差的。由于离群点检测的无监督性和搜索空间巨大,在搜索特征子集时引入离群点评分方法是一个挑战。
本文提出了一种新的基于稀疏模型的序列集成学习(SEMSE)框架,用于高维数值数据的离群点检测。
-
具体地说,SEMSE首先使用给定的离群点评分方法来计算数据对象的离群点评分,并定义离群点阈值函数来识别一组离群点候选。
-
然后,SEMSE对异常值候选集进行稀疏回归,将异常值得分作为目标特征,将原始特征作为预测因子,以选择与异常值得分最相关的特征。这个过程被称为碎片稀疏建模,以强调稀疏回归是建立在一个小的数据子集(即,离群点候选集)而不是完整的数据集。
-
SEMSE最后将同一给定的离群点检测器应用于具有所选特征的数据,以产生一个精化的离群点评分。
重复执行上述三个步骤以产生一组异常值分数,直到稀疏回归的损失函数不减小为止。
本质上,这种学习过程集成了两个相关的任务:特征选择和离群点检测,并对它们进行迭代和相互完善,从而形成了独立的离群点检测(或特征选择)模型,通常称为序列集成。这使得SEMSE能够生成为异常值评分方法定制的特征子集。在具有许多噪声特征的数据集中,单个序列集成可能表现出不稳定的性能。因此,我们有一个boostrap聚合(即,bagging)的序列群,以进一步提高其能力和稳定性。
我们进一步通过定义一个基于Cantelli不等式的片段套索(称为CINFO)来实现SEMSE,从而构建序列集合。具体来说,CINFO首先定义了一个基于Cantelli不等式的离群值阈值函数来选择离群值候选,并进一步对离群值候选集应用基于lasso的分段稀疏回归来获得相关的特征子集。*两种不同的基于子抽样的离群值计分方法LeSiNN和iForest,分别处理输入数据的全空间和随机子空间,用于获得离群值计分,*以证明SEMSE的灵活性。因此,本文做出了两大贡献:
-
提出了一种新的序列集成学习框架SEMSE,用于识别高维数值数据中的离群点。SEMSE定义了一个递归的稀疏建模过程来构建序列集成,在序列集成中,特征选择和离群点评分是迭代和相互细化的。与现有的基于子空间/特征选择的解决方案相比,它在具有许多噪声特征的数据上产生了更可靠的离群值得分。
-
SEMSE被进一步实例化为CINFO,这个方法引入了一个基于Cantelli不等式的片段套索来学习序列集合。Cantelli不等式提供了一个孤立点阈值的假阳性上界,对孤立点得分没有特定的概率分布假设,很好地保证了序列集成后期特征选择和孤立点得分的细化。
一系列的实证结果表明:(i)在11个真实世界的高维数据集上,CINFO的LeSiNN和iForest的表现明显优于三个最先进的竞争对手和LeSiNN和iForest的裸版本;(ii)CINFO比其竞争对手具有更好的抗噪性;(iii)CINFO具有线性时间特性复杂性数据大小和数据维度。
Related Work
High-dimensional Outlier Detection Methods
基于子空间的方法是高维离群点检测的流行解决方案。他们搜索一组特征子空间,并使用它们来避免维数灾难,但子空间搜索通常是昂贵的,因为它需要大量的搜索来识别高维数据中的特征子空间。随机子空间生成是解决这一效率问题的一种广泛使用的解决方案,但它可能会将许多噪声特征包含到子空间中,而忽略高维数据中具有主要噪声特征的相关特征。或者,基于特征选择的方法旨在识别一个最优特征子集,该子集揭示所有异常值的异常行为。尽管几十年来,特征选择在实现聚类和分类方面表现出了有效性,但离群点检测方面的工作有限,因为它具有挑战性:(i)鉴于离群点检测的无监督性质,定义特征与离群点检测的相关性;(ii)找到一个能够检测所有离群点的单一特征子集。过去,我们通过某特征与其他特征的相关性来定义特征的依赖性。假设离群值对应于违反正常值之间的依赖关系,独立的特征在捕捉这种依赖关系/违反依赖关系时是没有用的。这种假设可能是无效的,因为一些特征可能与离群点检测有很强的相关性,但与其他特征没有相关性。基于子空间/特征选择的方法的一个共同问题是,它们独立于后续的离群点检测方法来搜索特征子集,并且它们可能导致特征子集对离群点检测器不理想。其他相关工作致力于更敏感的异常值度量或数据表示。由于它们在整个空间工作,它们的性能在很大程度上可能仍然受到噪声特性的影响。分类数据有一些子空间/特征选择方法。我们已经尝试了常用的无监督离散化方法,如等宽法和等频法,将这些方法应用于数值数据,但效果不佳。离散化方法需要专门设计用于异常点检测,需要进一步仔细开发。因此,在我们的实验中,我们着重于比较CINFO和基于数值数据的方法。
Outlier Ensemble Learning
与成熟的聚类和分类集成方法不同,离群点集成学习直到最近几年才引起广泛关注。大多数现有的离群值组合都采用并行集成学习范式,构建了一套独立的基本模型。相反,顺序集成通过*使用当前基础模型的结果来改进下一个基础模型来构建依赖的基础模型。由于通常假设类别标签不可用,因此很难构建用于孤立点检测的顺序集成。*据我们所知,CARE方法是唯一的这类工作,它旨在通过迭代去除潜在的异常值来改进基本模型,从而减少掩蔽和淹没效应,而这无法解决高维空间中的上述问题。SEMSE从根本上不同于CARE,因为我们探索通过迭代消除噪声特征来相互改进特征选择和离群点评分。
SEMSE for Mutual Refinement of Feature Selection and Outlier Scoring
SEMSE框架构建了一组顺序集成模型,以相互细化异常值评分和特征选择。
如图1所示,SEMSE的工作原理如下。在第1次迭代中,给定一组N个数据对象X = {x1,x2,···,xn},由一组D特征(即 xi={ Xi1,Xi2,··,XiD } )及其离群值向量yt-1∈ RN在前一迭代中得到,SEMSE首先定义离群点阈值函数ηt以产生一组Lt个离群点Rt ∈ RLt×(D+1)。Rt包含D+1维,因为它连接原始D维和yt−1。SEMSE进一步将yt−1作为目标特征,将其他D特征作为预测值,并在Rt上应用稀疏回归模型ψt,以产生具有一组最优特征Mt的新数据集St。St∈RN×Mt,以及经验误差mset。然后,SEMSE使用离群值计分函数φ基于St来重新计算离群值计分向量yt。SEMSE重复这些递归步骤以产生一组离群值得分向量,直到mset+1>mset。这些递归步骤组成了一个顺序集成模型。SEMSE最后执行bagging来聚合一组顺序集成模型,以获得最终的离群点得分。
标签:集成,based,Effective,SEMSE,特征选择,特征,Learning,离群,高维 来源: https://blog.csdn.net/qq_42876552/article/details/115305379