编程语言
首页 > 编程语言> > 《机器学习实战》笔记(十二):Ch12 - 使用FP-growth算法来高效发现频繁项集

《机器学习实战》笔记(十二):Ch12 - 使用FP-growth算法来高效发现频繁项集

作者:互联网

第12章 使用FP-growth算法来高效发现频繁项集([代码][ch12])

可以看出,后挖掘到的频繁闭项集不可能包含先前找到的频繁闭项集,但是它可能被已有的一个频繁闭项集所包含,因此在挖掘过程中要对新挖掘的候选频繁闭项集进行检验。如果刚得到的候选频繁闭项集X不是已有的一个频繁闭项集的子集或者两者的支持度不同,那么就说X通过了FCI超集检测,是一个频繁闭项集。

- 如果X是一个频繁闭项集,那么在X的条件模式基中不存在任何一个项i出现在每一个事务中。

- 如果Y是一个最大项集合(Y满足:出现在X的条件模式基的每一个事务中,但Y的直接超集不满足这一性质),并且X∪Y通过了FCI超集检测,那么X∪Y是一个频繁闭项集。

- 单路径候选频繁闭项集:设i是X的条件模式基中的一个频繁项目,如果X的条件模式树中只有一个结点N标记为i,并且N的所有祖先结点只有一个子女,N若满足下列三个条件之一:

    

    - N没有子女。

    - N有两个以上的子女。

       

    - N有一个子女,它的支持度计数小于N的。

    

        **那么单路径候选频繁闭项集就是X∪Z,Z包含N和N的祖先(除根结点)。如果条件模式X的条件FP-tree存在单路径,在单路径中提取候选频繁闭项集的个数为单路径中具有不等的频度个数。**

- 对单路径候选频繁闭项集Y,如果Y通过了FCI超集检测,则Y是一个频繁闭项集。

- X和Y是两个频繁项集且具有相同的支持度。如果X?Y且Y是闭项集,那么不存在只包含X不包含Y?X的频繁闭项集。

代码托管见Github
[ch12]:https://github.com/Lornatang/machine_learning_in_action_py3/tree/master/src/ch12

lornatang 发布了20 篇原创文章 · 获赞 20 · 访问量 3939 私信 关注

标签:Ch12,FP,路径,模式,项集,频繁,growth,闭项
来源: https://blog.csdn.net/shiyipaisizuo/article/details/80381769