其他分享
首页 > 其他分享> > Spark 频繁模式挖掘

Spark 频繁模式挖掘

作者:互联网

Spark - Frequent Pattern Mining

官方文档:https://spark.apache.org/docs/2.2.0/ml-frequent-pattern-mining.html

挖掘频繁项、项集、子序列或者其他子结构通常是大规模数据分析的第一步,这也是近些年数据挖掘领域的活跃研究话题;

目录:

FP-Growth

FP-Growth算法基于这篇论文,“FP”的意思就是频繁模式,提供一个处理后的数据集,FP-Growth第一步是计算项的频率,同时标识频繁项,因为一些目的与类似Apriori算法在设计上有不同之处,FP-Growth第二步是使用一个后缀树(FP树)结构在没有生成显示候选集的情况下进行编码转换,生成候选集通常是代价高昂的,第二步之后,可以通过FP树来提取项集的频率,在spark.mllib中,实现了一个并行版本的FP-Growth算法,叫做PFP,PFP基于后缀转换来分配FP树的生长工作,因此相对比单机版本更有扩展性;

spark.ml的FP-Growth实现了以下超参数:

FPGrowthModel提供如下属性:

from pyspark.ml.fpm import FPGrowth

df = spark.createDataFrame([
    (0, [1, 2, 5]),
    (1, [1, 2, 3, 5]),
    (2, [1, 2])
], ["id", "items"])

fpGrowth = FPGrowth(itemsCol="items", minSupport=0.5, minConfidence=0.6)
model = fpGrowth.fit(df)

# Display frequent itemsets.
model.freqItemsets.show()

# Display generated association rules.
model.associationRules.show()

# transform examines the input items against all the association rules and summarize the
# consequents as prediction
model.transform(df).show()

标签:FP,model,项集,频繁,Growth,挖掘,Spark,spark
来源: https://www.cnblogs.com/helongBlog/p/13750802.html