首页 > 其他分享> > 贝叶斯过滤器理解及反黄牛应用

贝叶斯过滤器理解及反黄牛应用

2020-01-22 15:43:42 作者：互联网

一理论

概率论：从特殊推论一般、从样本推论全体。

很多专业的文章一开始就贴出公式，看了就头大。我就从一个小白的角度，来理解下贝叶斯过滤器的理论及应用。

应该是中学数学内容：

条件概率公式：事件A和B同时发生的概率为在A发生的情况下发生B或者在B发生的情况下发生A。

$P(A\cap B) = P(A)*P(B|A) = P(B)*P(A|B)$

所以有：

$P(A | B) = (P(B|A)*P(A))/P(B)$

换个写法：

贝叶斯定理（Bayes’s Rule）：如果有k个相互独立事件 A1,A2···，Ak 并且，P (A1) + P(A2) + ... + p(Ak)= 1 和一个可以观测到的事件 B，那么有：

u=239894515,405307697&fm=58.jpeg

P(A)为先验概率，即在观察事件B之前得到的事件A的假设概率
P(A|B) 为后验概率，即在观察事件B后得到新数据后计算该假设A的概率
P(B|A)为似然度，即在该假设A下得到这一观察数据 B 的概率
P(B)为标准化常量，即在任何假设下得到这一观察数据 B 的概率

换个理解方式：

将公式写作下面这种形式：P(A|B)= P(A)* $\frac{P(B|A))}{P(B)}$ ， $\frac{P(B|A))}{P(B)}$ 称为调整因子，

可写作：P(A|B)= P(A)*调整因子

若调整因子>1, P(A|B)> P(A)，说明B提供的信息使得先验概率增强；

若调整因子=1, P(A|B)= P(A) ,说明B提供的信息对于A没有帮助；

若调整因子<1, P(A|B)< P(A) ，说明B提供的信息使得先验概率减弱。

贝叶斯推断：建立在主观推断的基础上，可以不需要客观证据，先估计一个值，然后根据实际不断修正。

什么是先验概率和后验概率

先验概率是根据以往经验和分析得到的概率，如全概率公式，它往往作为“由因求果”问题中的“因”出现。后验概率是指在得到“结果”的信息后重新修正的概率，是“执果寻因”问题中的“因”。后验概率是基于新的信息，修正原来的先验概率后所获得的更接近实际情况的概率估计.

条件概率是频率统计思维，通过已知的信息去计算事件出现概率，我们称之为正向概率；贝叶斯公式反其道而行之，通过实验结果去反推出现实验结果的原因，我们称之为逆概率。

经典例子：黑白球摸球问题。

下面例子来自知乎：

举个例子，有两个碗，分别称为1号、2号，1号碗里有水果糖30颗，巧克力糖10颗，2号碗里有水果糖20颗，巧克力糖20颗。伸手抓一颗糖是水果糖，问是从1号碗拿到的概率是多少？

我们假设两个碗大小形状相同、摆放位置相同，也就是你从1号碗和2号碗抓糖的概率一样，都是0.5

[公式]

为什么朴素贝叶斯如此“朴素”
因为它假定所有的特征在数据集中的作用是同样重要和独立的。正如我们所知，这个假设在现实世界中是很不真实的，因此，说朴素贝叶斯真的很“朴素”。

朴素贝叶斯模型（Naive Bayesian Model）的朴素（Naive）的含义是“很简单很天真”地假设样本特征彼此独立，这个假设现实中基本不存在，但特征相关性很小的实际情况还是很多的，所以这个模型仍能够工作得很好。

什么是贝叶斯决策理论
贝叶斯决策理论是主观贝叶斯派归纳理论的重要组成部分。贝叶斯决策就是在不完全情报下，对部分未知的状态用主观概率估计，然后用贝叶斯公式对发生概率进行修正，最后再利用期望值和修正概率作出最优决策（选择概率最大的类别）。

贝叶斯决策理论方法是统计模型决策中的一个基本方法，其基本思想是：

已知类条件概率密度参数表达式和先验概率。
利用贝叶斯公式转换成后验概率。
根据后验概率大小进行决策分类。
朴素贝叶斯算法的前提假设
特征之间相互独立
每个特征同等重要

朴素贝叶斯有哪几种常用的分类模型
朴素贝叶斯的三个常用模型：高斯、多项式、伯努利。

高斯模型主要处理包含连续型变量的数据，使用高斯分布概率密度来计算类的条件概率密度。适用于特征满足正态分布的情况，如果不是，可以想办法转换称正态分布（抽样，或者增大数据量，或者转换计算域ln y, ，都是常用的转换形式）

多项式模型：用于离散值模型的处理网上有公式（比如文本分类问题里面，不光看词语是否在文本中出现，也得看出现的次数，如果总词数为n，出现词数为m的话，说起来有点像掷骰子n次出现m次这个词的场景。）

伯努利模型：适合二项分布，伯努利模型特征的取值为布尔型，即出现为true没有出现为false，（在文本分类中，就是一个单词有没有在一个文档中出现不关心次数）。

二应用

上面的偏学术，现实世界中，我们往往能观察到大量的现象，我们更加关心现象背后的原因。比如一段文本出现大量的特征，我们会去判断是不是垃圾邮件；这也是网上最常见贝叶斯过滤器的应用。还有就是推荐系统。

这里简单说一下再反黄牛的：

定义恶意事件，这里就是为了影响调整因子。根据贝叶斯理论，在系统的初始阶段，我们把先验概率P(s), 可设置为 0.5。

P(S|K): 在事件 K 发生的前提下用户是恶意用户的概率,这个可以借助于恶意事件（频繁的挂号退号）来不断的修正，达到一定的阈值。就认为是恶意用户。

参考：

https://blog.csdn.net/qq_32742009/article/details/82017344

https://zhuanlan.zhihu.com/p/41839198

bohu83 发布了504 篇原创文章 · 获赞 80 · 访问量 52万+ 他的留言板关注

标签：概率,后验,模型,贝叶斯,黄牛,过滤器,先验概率,朴素
来源： https://blog.csdn.net/bohu83/article/details/104069580

贝叶斯过滤器理解及反黄牛应用

一 理论

什么是先验概率和后验概率

二 应用

一理论

二应用