学习笔记(70):第二章:海量数据的处理与挖掘-关联规则挖掘01
作者:互联网
立即学习:https://edu.csdn.net/course/play/26303/334278?utm_source=blogtoedu
1. 数据挖掘是一项从大量的记录数据中提取有价值、人们感兴趣的只是,这些只是是隐含的、事先未知的有用信息,提取的知识一般可表示为概念(concepts)、规则(rules)、规律(regular ides)、模式(patterns)等形式
其中:
规则:海量数据中样本与样本之间的关联性
模式:通过特征X,经过函数f得到结构y
2. 关联规则:发现数据中的规律
* 超市中什么产品回忆起购买(组合推荐)
* 顾客在买了一台PC之后下一步会购买(搭配推荐)
* 哪种DNA对这种药物敏感(统计学运用)
3. 关联规则基本概念
* 每一个数据样本称为项目
* 例如一个顾客购买商品的购物车称为项目的组合即事务
* 事务中有意义的项目集合叫做项集,比如面包和牛奶,这就是二项集,我们要挖掘的就是项集
* 1000个人购物,1000个购物单,牛奶在购物单中出现的次数叫支持度
* 当支持度高到一定程度,才会观测出有意义的信息和规则,设定一个阈值
* 项集A在事务数据库D中出现的次数占D中总事务的百分比叫做项集的支持度。如果项集的支持度超过用户给定的最小支持度阈值,就称该项集是频繁项集(或频集)
4. 事务数据库中X和Y同时存在的百分比s%称为支持度;信任度表示出现X的基础上再出现Y的概率,即条件概率
果儿_wj 发布了73 篇原创文章 · 获赞 3 · 访问量 724 私信 关注标签:事务,01,70,支持,项集,样本,规则,挖掘,购物单 来源: https://blog.csdn.net/wj1408421029/article/details/104529417