首页 > 其他分享> > 学习笔记(70):第二章：海量数据的处理与挖掘-关联规则挖掘01

学习笔记(70):第二章：海量数据的处理与挖掘-关联规则挖掘01

2020-02-27 09:01:00 作者：互联网

1. 数据挖掘是一项从大量的记录数据中提取有价值、人们感兴趣的只是，这些只是是隐含的、事先未知的有用信息，提取的知识一般可表示为概念(concepts)、规则(rules)、规律(regular ides)、模式(patterns)等形式

其中：

规则：海量数据中样本与样本之间的关联性

模式：通过特征X，经过函数f得到结构y

2. 关联规则：发现数据中的规律

* 超市中什么产品回忆起购买(组合推荐)

* 顾客在买了一台PC之后下一步会购买(搭配推荐)

* 哪种DNA对这种药物敏感(统计学运用)

3. 关联规则基本概念

* 每一个数据样本称为项目

* 例如一个顾客购买商品的购物车称为项目的组合即事务

* 事务中有意义的项目集合叫做项集，比如面包和牛奶，这就是二项集，我们要挖掘的就是项集

* 1000个人购物，1000个购物单，牛奶在购物单中出现的次数叫支持度

* 当支持度高到一定程度，才会观测出有意义的信息和规则，设定一个阈值

* 项集A在事务数据库D中出现的次数占D中总事务的百分比叫做项集的支持度。如果项集的支持度超过用户给定的最小支持度阈值，就称该项集是频繁项集(或频集)

4. 事务数据库中X和Y同时存在的百分比s%称为支持度；信任度表示出现X的基础上再出现Y的概率，即条件概率

果儿_wj 发布了73 篇原创文章 · 获赞 3 · 访问量 724 私信关注

标签：事务,01,70,支持,项集,样本,规则,挖掘,购物单
来源： https://blog.csdn.net/wj1408421029/article/details/104529417