Aprior算法

2019-05-19 19:55:04 作者：互联网

1、Aprior算法简介

　　Apriori算法是经典的挖掘频繁项集和关联规则的数据挖掘算法。Apriori算法的名字正是基于这样的事实：算法使用频繁项集性质的先验性质，即频繁项集的所有非空子集也一定是频繁的。Apriori算法使用一种称为逐层搜索的迭代方法，其中k项集用于探索(k+1)项集。首先，通过扫描数据库，累计每个项的计数，并收集满足最小支持度的项，找出频繁1项集的集合。该集合记为L₁。然后，使用L₁找出频繁2项集的集合L₂，使用L₂找出L₃，如此下去，直到不能再找到频繁k项集。每找出一个L_k需要一次数据库的完整扫描。Apriori算法使用频繁项集的先验性质来压缩搜索空间。

2. 基本概念

项与项集：设itemset={item1, item_2, …, item_m}是所有项的集合，其中，item_k(k=1,2,…,m)成为项。项的集合称为项集（itemset），包含k个项的项集称为k项集(k-itemset)。
事务与事务集：一个事务T是一个项集，它是itemset的一个子集，每个事务均与一个唯一标识符Tid相联系。不同的事务一起组成了事务集D，它构成了关联规则发现的事务数据库。
关联规则：关联规则是形如A=>B的蕴涵式，其中A、B均为itemset的子集且均不为空集，而A交B为空。
支持度(support)：关联规则的支持度定义如下：

其中表示事务包含集合A和B的并（即包含A和B中的每个项）的概率。注意与P(A or B)区别，后者表示事务包含A或B的概率。
置信度(confidence)：关联规则的置信度定义如下：

项集的出现频度(support count)：包含项集的事务数，简称为项集的频度、支持度计数或计数。
频繁项集(frequent itemset)：如果项集I的相对支持度满足事先定义好的最小支持度阈值（即I的出现频度大于相应的最小出现频度（支持度计数）阈值），则I是频繁项集。
强关联规则：满足最小支持度和最小置信度的关联规则，即待挖掘的关联规则。

3. Aprior算法流程

　　　　输入：数据集合D，支持度阈值αα

　　　　输出：最大的频繁k项集

　　　　1）扫描整个数据集，得到所有出现过的数据，作为候选频繁1项集。k=1，频繁0项集为空集。

　　　　2）挖掘频繁k项集

　　　　　　a) 扫描数据计算候选频繁k项集的支持度

　　　　　　b) 去除候选频繁k项集中支持度低于阈值的数据集,得到频繁k项集。如果得到的频繁k项集为空，则直接返回频繁k-1项集的集合作为算法结果，算法结束。如果得到的频繁k项集只有一项，则直接返回频繁k项集的集合作为算法结果，算法结束。

　　　　　　c) 基于频繁k项集，连接生成候选频繁k+1项集。

　　　　3）令k=k+1，转入步骤2。

标签：itemset,事务,项集,频繁,Aprior,算法,集合
来源： https://www.cnblogs.com/danhuang101/p/10890407.html