《概率论与数理统计》知识点
作者:互联网
第一章概率论的基本概念
随机试验E的所有可能结果组成的集合称为E的样本空间,记为S,样本空间的元素,即E的每个结果,称为样本点。
例如:试验\(E_1\),抛一枚骰子,观察出现的点数;对应的样本空间S:{1,2,3,4,5,6}
随机事件:试验\(E\)的的样本空间\(S\)的子集为E的随机事件,简称事件。
基本事件:由一个样本点组成的单点集,称为基本事件。
例如:试验\(E_1\)有6个基本事件:{1},{2},{3},{4},{5},{6}
事件间的关系:
1.事件\(A\bigcup B= {\lbrace x|x \in A 或 x \in B}\rbrace\)称为事件A与事件B的和事件。当且仅当A,B至少一个发生时,事件\(A\bigcup B\)发生。
2.事件\(A\bigcap B= {\lbrace x|x \in A 且 x \in B}\rbrace\)称为事件A与事件B的积事件。当且仅当A,B同时发生时,事件\(A\bigcap B\)发生;\(A\bigcap B\)也记作\(AB\)。
3.事件\(A-B={\lbrace x|x \in A 且 x \notin B}\rbrace\)称为事件A与事件B的差事件。当且仅当A发生,B不发生时事件\(A-B\)发生。
4.若\(A\bigcap B = \oslash\),则称事件A与B时互不相容的,或互斥的,这指的是事件A与事件B不能同时发生,基本事件是两两互不相容的。
5
.若\(A \bigcup B=S\)且\(A\bigcap B = \oslash\),则称事件A与事件B互为逆事件,又称事件A与事件B互为对立事件。A的对立事件记为\(\overline A\)。
条件概率:设A,B是两个事件,且$P(A) > 0 \(,称\)P(B|A)= \frac{ P(AB) }{ P(A) }\(,为事件A发生的条件下事件B发生的条件概率。<br> 例:将一枚硬币抛掷两次,观察其出现正反面的情况。设事件A为“至少有一次为H”,事件B为“两次掷出同一面”。现在来求已知事件A已经发生的条件下事件B发生的概率。<br> 样本空间为\)S={\lbrace HH,HT,TH,TT}\rbrace,A={\lbrace HH,HT,TH}\rbrace,B={\lbrace HH,TT}\rbrace$ $ \Longrightarrow P(B \mid A)=\frac{1}{3}$
\(\begin{align} P(A) = \frac{3}{4} \\ P(AB) = \frac{1}{4} \\ P(B \mid A) = \frac{1}{3} = \frac{\frac{1}{4}}{\frac{3}{4}} \end{align}\)\(\Longrightarrow P(B \mid A)= \frac{ P(AB) }{ P(A) }\)
乘法定理:由条件概率的定义,可得设\(P(A) > 0\),则有\(P(AB)=P(B \mid A)P(A)\),称为乘法公式。
样本空间划分的定义:设S为试验E的样本空间,\(B_1,B_2,...,B_n\)为E的一组事件,若
\((i)B_iB_j = \oslash,i \neq j,i,j=1,2,...,n\)
\((ii)B_1 \bigcup B_2 \bigcup ... \bigcup B_n = S\)
则称\(B_1,B_2,...,B_n\)为样本空间S的一个划分。
若\(B_1,B_2,...,B_n\)为样本空间S的一个划分,那么,对每次试验,事件\(B_1,B_2,...,B_n\)中必有一个且仅有一个发生。
例如:试验\(E_1\),抛一枚骰子观察出现的点数。对应的样本空间S:{1,2,3,4,5,6}。
E的一组事件\(B_1={\lbrace 1,2,3}\rbrace,B_2={\lbrace 4,5}\rbrace,B_3={\lbrace 6}\rbrace\)是S的一个划分。
而事件组\(C_1={\lbrace 1,2,3}\rbrace,C_2={\lbrace 3,4}\rbrace,C_3={\lbrace 5,6}\rbrace\)不是S的一个划分。
全概率公式(由因求果):
设试验E的的样本空间为S,A为E的事件,\(B_1,B_2,...,B_n\)为样本空间S的一个划分,且\(P(B_i) > 0(i=1,2,...,n)\),则
\(P(A)=P(A \mid B_1)P(B_1)+P(A \mid B_2)P(B_2)...P(A \mid B_n)P(B_n)\),称为全概率公式。
贝叶斯公式(由果及因):
设试验E的的样本空间为S,A为E的事件,\(B_1,B_2,...,B_n\)为样本空间S的一个划分,且\(P(A) > 0,P(B_i) > 0(i=1,2,...,n)\),则
\(P(B_i \mid A)=\frac{P(A \mid B_i)P(B_i)}{\sum_{j=1}^{n}{P(A \mid B_j)P(B_j)}},i = 1,2,...n\),称为贝叶斯(Bayes)公式。
如果我们把事件A看做“结果”,把诸事件\(B_1,B_2,...,B_n\)看做导致这个结果的可能的“原因”,则可以形象地把全概率公式看做成为“由原因推结果”;
而贝叶斯公式则恰好相反,其作用于“由结果推原因”:现在有一个“结果”A已发生,在众多可能的“原因”中,到底是哪一个导致了这结果"
先验概率:是指根据以往经验和分析得到的概率。
后验概率:事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小。
贝叶斯公式的直观理解(先验概率/后验概率)--https://www.cnblogs.com/yemanxiaozu/p/7680761.html
例:某电子设备制造厂所用的元件是三家元件制造厂提供的。根据以往的记录有一下的数据:
元件制造厂 | 次品率 | 提供元件的份额 |
---|---|---|
1 | 0.02 | 0.15 |
2 | 0.01 | 0.80 |
3 | 0.03 | 0.05 |
设这三家工厂的产品在仓库中是均匀混合的,且无区别的标志。
(1)在仓库中随机地取出一只元器件,求它是次品的概率;
(2)在仓库中随机地取一只元件,若已知取到的是次品,为分析此次品出自何厂,需求出此次品由三家工厂生产的概率分别是多少,试求这些概率。
设A表示“取到的是一只次品”,\(B_i(i=1,2,3)\)表示“所取到的产品是由第i家工厂提供的”,易知,\(B_1,B_2,B_3\)是样本空间S的一个划分,且有
\(P(B_1) = 0.15,P(B_2) = 0.80,P(B_3) = 0.05\)
\(P(A \mid B_1) = 0.02,P(A \mid B_2) = 0.01,P(A \mid B_3) = 0.03\)
(1)由全概率公式:
\(P(A)=P(A \mid B_1)P(B_1)+P(A \mid B_2)P(B_2)+P(A \mid B_3)P(B_3) = 0.0125\)
(2)由贝叶斯公式:
\(P(B_1 \mid A) = \frac{P(A \mid B_1)P(B_1)}{P(A)} = \frac{0.02 * 0.15}{0.0125} = 0.24\)
\(P(B_1 \mid A) = 0.64,P(B_3 \mid A) = 0.12\)
定义:设A,B是两事件,如果满足等式\(P(AB)=P(A)P(B),则称事件A,B相互独立,简称A,B独立\)
两事件相互独立,并不是指两事件不能同时发生,可同时发生,但一个已发生不影响里一个发生的概率。
例如:设试验E为“抛甲乙两枚硬币,观察正反面出现的情况”。设事件A为“甲币出现H”,事件B为“乙币出现H”。
E的样本空间\(S={\lbrace HH,HT,TH,TT}\rbrace\)
\(P(A) = \frac{2}{4} = \frac{1}{2},P(B) = \frac{2}{4} = \frac{1}{2}\)
\(P(B \mid A) = \frac{1}{2},P(AB) = \frac{1}{4}\)
\(P(AB) = P(A)P(B \mid A) = P(A)P(B) = \frac{1}{2} * \frac{1}{2} = \frac{1}{4}\)
由题意显然甲币是否出现正面与乙币是否出现正面是互不影响的。
朴素贝叶斯法
朴素贝叶斯分类的原理与流程
朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别
朴素贝叶斯分类的正式定义如下:
1、设\(x={\lbrace a_1,a_2,...a_m}\rbrace\)为一个待分类项,而每个\(a_i\)为x的一个特征属性。
2、有类别集合\(C={\lbrace y_1,y_2,...y_n}\rbrace\)。
3、计算\(P(y_1 \mid x),P(y_2 \mid x),...P(y_n \mid x)\)。
4、如果\(P(y_k \mid x) = max{\lbrace P(y_1 \mid x),P(y_2 \mid x),...P(y_n \mid x)}\rbrace\),则\(x \in y_k\)。
那么现在的关键就是如何计算第3步中的各个条件概率。我们可以这么做:
1、找到一个已知分类的待分类项集合,这个集合叫做训练样本集。
2、统计得到在各类别下各个特征属性的条件概率估计。即
$ P(a_1 \mid y_1),P(a_2 \mid y_1),...P(a_m \mid y_1)$
$ P(a_1 \mid y_2),P(a_2 \mid y_2),...P(a_m \mid y_2)$
\(\cdots\)
$ P(a_1 \mid y_n),P(a_2 \mid y_n),...P(a_m \mid y_n)$
3、如果各个特征属性是条件独立的,则根据贝叶斯定理有如下推导:
\(P(y_i \mid x)= \frac{ P(x \mid y_i)P(y_i) }{ P(x) }\)
因为分母对于所有类别为常数,因为我们只要将分子最大化皆可。又因为各特征属性是条件独立的,所以有:
\(P(x \mid y_i)P(y_i) = P(a_1 \mid y_i)P(a_2 \mid y_i)...P(a_m \mid y_i)P(y_i) = P(y_i)\prod_{j=1}^{m}{P(a_j \mid y_i)}\)
估计类别下特征属性划分的条件概率及Laplace校准
由上文看出,计算各个划分的条件概率P(a|y)是朴素贝叶斯分类的关键性步骤:
当特征属性为离散值时,只要很方便的统计训练样本中各个划分在每个类别中出现的频率即可用来估计P(a|y),
下面重点讨论特征属性是连续值的情况。
当特征属性为连续值时,通常假定其值服从高斯分布(也称正态分布)。即:
\(f(x;\mu,\sigma^2) = \frac{1}{\sqrt{2 \pi}\sigma}e^-{\frac{(x-\mu)^2}{2\sigma^2}}\)
而\(P(a_k \mid y_i) = f(a_k;\mu_i,\sigma^2_i)\)
因此只要计算出训练样本中各个类别中此特征项划分的各均值和标准差,代入上述公式即可得到需要的估计值。均值与标准差的计算在此不再赘述。
另一个需要讨论的问题就是当P(a|y)=0怎么办,当某个类别下某个特征项划分没有出现时,就是产生这种现象,这会令分类器质量大大降低。为了解决这个问题,我们引入Laplace校准,它的思想非常简单,就是对没类别下所有划分的计数加1,这样如果训练样本集数量充分大时,并不会对结果产生影响,并且解决了上述频率为0的尴尬局面。
参考:
算法杂货铺——分类算法之朴素贝叶斯分类(Naive Bayesian classification)--https://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html
例如:连续型随机变量的处理
下面是一组人类身体特征的统计资料。
身高(英尺) | 体重(磅) | 脚掌(英寸) | 性别 |
---|---|---|---|
6.00 | 180 | 12 | 男 |
5.92 | 190 | 11 | 男 |
5.58 | 170 | 12 | 男 |
5.92 | 165 | 10 | 男 |
5.00 | 100 | 6 | 女 |
5.50 | 150 | 8 | 女 |
5.42 | 130 | 7 | 女 |
5.75 | 150 | 9 | 女 |
已知某人身高6英尺、体重130磅,脚掌8英寸,请问该人是男是女?
根据朴素贝叶斯分类器,计算下面这个式子的值。
P(身高|性别) x P(体重|性别) x P(脚掌|性别) x P(性别)
这里的困难在于,由于身高、体重、脚掌都是连续变量,不能采用离散变量的方法计算概率。而且由于样本太少,所以也无法分成区间计算。怎么办?
这时,可以假设男性和女性的身高、体重、脚掌都是正态分布,通过样本计算出均值和方差,也就是得到正态分布的密度函数。有了密度函数,就可以把值代入,算出某一点的密度函数的值。
比如,男性的身高是均值5.855、方差0.035的正态分布。所以,男性的身高为6英尺的概率的相对值等于1.5789(大于1并没有关系,因为这里是密度函数的值,只用来反映各个值的相对可能性)。
\(P(height \mid male) = f(height;\mu,\sigma^2) = \frac{1}{\sqrt{2 \pi}\sigma}e^-{\frac{(x-\mu)^2}{2\sigma^2}}\)
有了这些数据以后,就可以计算性别的分类了。 P(男) 和 P(女)可以看做为\(\frac{1}{2}\)
P(身高=6|男) x P(体重=130|男) x P(脚掌=8|男) x P(男)
= 6.1984 x e-9
P(身高=6|女) x P(体重=130|女) x P(脚掌=8|女) x P(女)
= 5.3778 x e-4
可以看到,女性的概率比男性要高出将近10000倍,所以判断该人为女性。
例如:离散型随机变量的处理:
试由下表的训练数据学习一个朴素贝叶斯分类器并确定\(x = (2,S)^T\)的类标记y。表中\(X^1,X^2\)为特征,取值的集合分别为\(A_1 = {\lbrace 1,2,3}\rbrace,A_2 = {\lbrace S,M,L}\rbrace\),Y为类标记,\(Y \in C \in {\lbrace 1, -1}\rbrace\)
标题 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
$ X^1 $ | 1 | 1 | 1 | 1 | 1 | 2 | 2 | 2 | 2 | 2 | 3 | 3 | 3 | 3 | 3 |
$ X^2 $ | S | M | M | S | S | S | M | M | L | L | L | M | M | L | L |
Y | -1 | -1 | 1 | 1 | -1 | -1 | -1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | -1 |
\(P(Y=1) = \frac{9}{15},P(Y=-1) = \frac{6}{15}\)
\(P(X^1 = 1 | Y = 1) = \frac{2}{9},P(X^1 = 2 | Y = 1) = \frac{3}{9},P(X^1 = 3 | Y = 1) = \frac{4}{9}\)
\(P(X^2 = S | Y = 1) = \frac{1}{9},P(X^2 = M | Y = 1) = \frac{4}{9},P(X^2 = L | Y = 1) = \frac{4}{9}\)
\(P(X^1 = 1 | Y = -1) = \frac{3}{6},P(X^1 = 2 | Y = -1) = \frac{2}{6},P(X^1 = 3 | Y = -1) = \frac{1}{6}\)
\(P(X^2 = S | Y = -1) = \frac{3}{6},P(X^2 = M | Y = -1) = \frac{2}{6},P(X^2 = L | Y = -1) = \frac{1}{6}\)
对于给定的\(x=(x,S)^T\)计算:
\(P(Y = 1)P(X^1 = 2 | Y = 1)P(X^2 = S | Y = 1) = \frac{9}{15}\frac{3}{9}\frac{1}{9} = \frac{1}{45}\)
$P(Y = -1)P(X^1 = 2 | Y = -1)P(X^2 = S | Y = -1) = \frac{6}{15}\frac{2}{6}\frac{3}{6} = \frac{1}{15} $
因为\(P(Y = -1)P(X^1 = 2 | Y = -1)P(X^2 = S | Y = -1)\)最大,所以\(y \in -1\)
参考:
统计学习方法,李航著。
标签:知识点,lbrace,frac,rbrace,...,mid,数理统计,事件,概率论 来源: https://www.cnblogs.com/wangmaotsing/p/11385872.html