贝叶斯过滤器理解及反黄牛应用
作者:互联网
一 理论
概率论:从特殊推论一般、从样本推论全体。
很多专业的文章一开始就贴出公式,看了就头大。我就从一个小白的角度,来理解下贝叶斯过滤器的理论及应用。
应该是中学数学内容:
条件概率公式:事件A和B同时发生的概率为在A发生的情况下发生B或者在B发生的情况下发生A。
所以有:
换个写法:
贝叶斯定理(Bayes’s Rule):如果有k个相互独立事件 A1,A2···,Ak 并且,P (A1) + P(A2) + ... + p(Ak)= 1 和一个可以观测到的事件 B,那么有:
P(A)为先验概率,即在观察事件B之前得到的事件A的假设概率
P(A|B) 为后验概率,即在观察事件B后得到新数据后计算该假设A的概率
P(B|A)为似然度,即在该假设A下得到这一观察数据 B 的概率
P(B)为标准化常量,即在任何假设下得到这一观察数据 B 的概率
换个理解方式:
将公式写作下面这种形式:P(A|B)= P(A)* ,称 为调整因子,
可写作:P(A|B)= P(A)*调整因子
若调整因子>1, P(A|B)> P(A),说明B提供的信息使得先验概率增强;
若调整因子=1, P(A|B)= P(A) ,说明B提供的信息对于A没有帮助;
若调整因子<1, P(A|B)< P(A) ,说明B提供的信息使得先验概率减弱。
贝叶斯推断:建立在主观推断的基础上,可以不需要客观证据,先估计一个值,然后根据实际不断修正。
什么是先验概率和后验概率
先验概率是根据以往经验和分析得到的概率,如全概率公式,它往往作为“由因求果”问题中的“因”出现。后验概率是指在得到“结果”的信息后重新修正的概率,是“执果寻因”问题中的“因”。后验概率是基于新的信息,修正原来的先验概率后所获得的更接近实际情况的概率估计.
条件概率是频率统计思维,通过已知的信息去计算事件出现概率,我们称之为正向概率;贝叶斯公式反其道而行之,通过实验结果去反推出现实验结果的原因,我们称之为逆概率。
经典例子: 黑白球摸球问题。
下面例子来自知乎:
举个例子,有两个碗,分别称为1号、2号,1号碗里有水果糖30颗,巧克力糖10颗,2号碗里有水果糖20颗,巧克力糖20颗。伸手抓一颗糖是水果糖,问是从1号碗拿到的概率是多少?
我们假设两个碗大小形状相同、摆放位置相同,也就是你从1号碗和2号碗抓糖的概率一样,都是0.5
为什么朴素贝叶斯如此“朴素”
因为它假定所有的特征在数据集中的作用是同样重要和独立的。正如我们所知,这个假设在现实世界中是很不真实的,因此,说朴素贝叶斯真的很“朴素”。
朴素贝叶斯模型(Naive Bayesian Model)的朴素(Naive)的含义是“很简单很天真”地假设样本特征彼此独立,这个假设现实中基本不存在,但特征相关性很小的实际情况还是很多的,所以这个模型仍能够工作得很好。
什么是贝叶斯决策理论
贝叶斯决策理论是主观贝叶斯派归纳理论的重要组成部分。贝叶斯决策就是在不完全情报下,对部分未知的状态用主观概率估计,然后用贝叶斯公式对发生概率进行修正,最后再利用期望值和修正概率作出最优决策(选择概率最大的类别)。
贝叶斯决策理论方法是统计模型决策中的一个基本方法,其基本思想是:
已知类条件概率密度参数表达式和先验概率。
利用贝叶斯公式转换成后验概率。
根据后验概率大小进行决策分类。
朴素贝叶斯算法的前提假设
特征之间相互独立
每个特征同等重要
朴素贝叶斯有哪几种常用的分类模型
朴素贝叶斯的三个常用模型:高斯、多项式、伯努利。
高斯模型主要处理包含连续型变量的数据,使用高斯分布概率密度来计算类的条件概率密度。适用于特征满足正态分布的情况,如果不是,可以想办法转换称正态分布(抽样,或者增大数据量,或者转换计算域ln y, , 都是常用的转换形式)
多项式模型:用于离散值模型的处理网上有公式(比如文本分类问题里面,不光看词语是否在文本中出现,也得看出现的次数,如果总词数为n,出现词数为m的话,说起来有点像掷骰子n次出现m次这个词的场景。)
伯努利模型:适合二项分布,伯努利模型特征的取值为布尔型,即出现为true没有出现为false,(在文本分类中,就是一个单词有没有在一个文档中出现不关心次数)。
二 应用
上面的偏学术,现实世界中,我们往往能观察到大量的现象,我们更加关心现象背后的原因。比如一段文本出现大量的特征,我们会去判断是不是垃圾邮件;这也是网上最常见贝叶斯过滤器的应用。还有就是推荐系统。
这里简单说一下再反黄牛的:
定义恶意事件,这里就是为了影响调整因子。根据贝叶斯理论,在系统的初始阶段,我们把先验概率P(s), 可设置为 0.5。
P(S|K): 在事件 K 发生的前提下用户是恶意用户的概率,这个可以借助于恶意事件(频繁的挂号退号)来不断的修正,达到一定的阈值。就认为是恶意用户。
参考:
https://blog.csdn.net/qq_32742009/article/details/82017344
https://zhuanlan.zhihu.com/p/41839198
bohu83 发布了504 篇原创文章 · 获赞 80 · 访问量 52万+ 关注
标签:概率,后验,模型,贝叶斯,黄牛,过滤器,先验概率,朴素 来源: https://blog.csdn.net/bohu83/article/details/104069580