其他分享
首页 > 其他分享> > 贝叶斯过滤器理解及反黄牛应用

贝叶斯过滤器理解及反黄牛应用

作者:互联网

一 理论

  概率论:从特殊推论一般、从样本推论全体。

很多专业的文章一开始就贴出公式,看了就头大。我就从一个小白的角度,来理解下贝叶斯过滤器的理论及应用。

  应该是中学数学内容:

条件概率公式:事件A和B同时发生的概率为在A发生的情况下发生B或者在B发生的情况下发生A。

所以有:

换个写法:

贝叶斯定理(Bayes’s Rule):如果有k个相互独立事件 A1,A2···,Ak 并且,P (A1) + P(A2) + ... + p(Ak)= 1 和一个可以观测到的事件 B,那么有:

u=239894515,405307697&fm=58.jpeg

P(A)为先验概率,即在观察事件B之前得到的事件A的假设概率
P(A|B) 为后验概率,即在观察事件B后得到新数据后计算该假设A的概率
P(B|A)为似然度,即在该假设A下得到这一观察数据 B 的概率
P(B)为标准化常量,即在任何假设下得到这一观察数据 B 的概率

换个理解方式:

将公式写作下面这种形式:P(A|B)= P(A)*\frac{P(B|A))}{P(B)}  ,\frac{P(B|A))}{P(B)}称  为调整因子,

可写作:P(A|B)= P(A)*调整因子

若调整因子>1,  P(A|B)> P(A),说明B提供的信息使得先验概率增强;

若调整因子=1, P(A|B)= P(A) ,说明B提供的信息对于A没有帮助;

若调整因子<1,  P(A|B)< P(A) ,说明B提供的信息使得先验概率减弱。

贝叶斯推断:建立在主观推断的基础上,可以不需要客观证据,先估计一个值,然后根据实际不断修正。

什么是先验概率和后验概率

    先验概率是根据以往经验和分析得到的概率,如全概率公式,它往往作为“由因求果”问题中的“因”出现。后验概率是指在得到“结果”的信息后重新修正的概率,是“执果寻因”问题中的“因”。后验概率是基于新的信息,修正原来的先验概率后所获得的更接近实际情况的概率估计.

   条件概率是频率统计思维,通过已知的信息去计算事件出现概率,我们称之为正向概率;贝叶斯公式反其道而行之,通过实验结果去反推出现实验结果的原因,我们称之为逆概率。

  经典例子: 黑白球摸球问题。

下面例子来自知乎:

举个例子,有两个碗,分别称为1号、2号,1号碗里有水果糖30颗,巧克力糖10颗,2号碗里有水果糖20颗,巧克力糖20颗。伸手抓一颗糖是水果糖,问是从1号碗拿到的概率是多少?

我们假设两个碗大小形状相同、摆放位置相同,也就是你从1号碗和2号碗抓糖的概率一样,都是0.5

[公式]

为什么朴素贝叶斯如此“朴素”
因为它假定所有的特征在数据集中的作用是同样重要和独立的。正如我们所知,这个假设在现实世界中是很不真实的,因此,说朴素贝叶斯真的很“朴素”。

朴素贝叶斯模型(Naive Bayesian Model)的朴素(Naive)的含义是“很简单很天真”地假设样本特征彼此独立,这个假设现实中基本不存在,但特征相关性很小的实际情况还是很多的,所以这个模型仍能够工作得很好。

什么是贝叶斯决策理论
贝叶斯决策理论是主观贝叶斯派归纳理论的重要组成部分。贝叶斯决策就是在不完全情报下,对部分未知的状态用主观概率估计,然后用贝叶斯公式对发生概率进行修正,最后再利用期望值和修正概率作出最优决策(选择概率最大的类别)。

贝叶斯决策理论方法是统计模型决策中的一个基本方法,其基本思想是:

已知类条件概率密度参数表达式和先验概率。
利用贝叶斯公式转换成后验概率。
根据后验概率大小进行决策分类。
朴素贝叶斯算法的前提假设
特征之间相互独立
每个特征同等重要

朴素贝叶斯有哪几种常用的分类模型
朴素贝叶斯的三个常用模型:高斯、多项式、伯努利。

高斯模型主要处理包含连续型变量的数据,使用高斯分布概率密度来计算类的条件概率密度。适用于特征满足正态分布的情况,如果不是,可以想办法转换称正态分布(抽样,或者增大数据量,或者转换计算域ln y,  ,  都是常用的转换形式)

多项式模型:用于离散值模型的处理网上有公式(比如文本分类问题里面,不光看词语是否在文本中出现,也得看出现的次数,如果总词数为n,出现词数为m的话,说起来有点像掷骰子n次出现m次这个词的场景。)

伯努利模型:适合二项分布,伯努利模型特征的取值为布尔型,即出现为true没有出现为false,(在文本分类中,就是一个单词有没有在一个文档中出现不关心次数)。

二  应用

   上面的偏学术,现实世界中,我们往往能观察到大量的现象,我们更加关心现象背后的原因。比如一段文本出现大量的特征,我们会去判断是不是垃圾邮件;这也是网上最常见贝叶斯过滤器的应用。还有就是推荐系统。

  这里简单说一下再反黄牛的:

   定义恶意事件,这里就是为了影响调整因子。根据贝叶斯理论,在系统的初始阶段,我们把先验概率P(s), 可设置为 0.5。

P(S|K): 在事件 K 发生的前提下用户是恶意用户的概率,这个可以借助于恶意事件(频繁的挂号退号)来不断的修正,达到一定的阈值。就认为是恶意用户。

 

 

 

 

参考:

https://blog.csdn.net/qq_32742009/article/details/82017344

https://zhuanlan.zhihu.com/p/41839198

 

bohu83 发布了504 篇原创文章 · 获赞 80 · 访问量 52万+ 他的留言板 关注

标签:概率,后验,模型,贝叶斯,黄牛,过滤器,先验概率,朴素
来源: https://blog.csdn.net/bohu83/article/details/104069580