其他分享
首页 > 其他分享> > NLP学习(一)——朴素贝叶斯

NLP学习(一)——朴素贝叶斯

作者:互联网

贝叶斯方法

贝叶斯定理

贝叶斯公式:$$P(Y|X)=\frac{P(X|Y)P(Y)}{P(X)}$$
假设时间A表示机器学习任务中样本的取值状态为X,事件B表示机器学习模型参数\(\Theta\)的取值为\(\Theta_{i}\),则上述公式可转化为

\[P(\Theta_{i}|X)=\frac{P(\Theta)P(X|\Theta_{i})}{P(X)} \]

其中,\(P(\Theta_{i}|X)\)表示在样本取值X的情况下,模型参数取值为\(\Theta_{i}\)的条件概率。假设模型参数的各取值状态独立且互斥,则可得公式

\[P(\Theta_{i}|X)=\frac{P(\Theta)P(X|\Theta_{i})}{\sum \limits_{k}P(X|\Theta_{i})P(\Theta_{i})} \]

公式中的因子\(\frac{P(X|\Theta_{i})}{\sum \limits_{k}P(X|\Theta_{i})P(\Theta_{i})}\)仅与样本特征的取值状态X有关,用于将先验概率修正为后验概率。
因此,贝叶斯方法的求解思路为

\[后验概率=先验概率*样本信息 \]

通常情况下,模型对于单个样本的误差可以利用损失函数进行衡量,贝叶斯模型主要通过后验概率进行分类。

贝叶斯决策

在所有相关概率都已知的理想情况下,可以以整体条件风险最小化为准则选择最优类别完成分类任务,通常称为贝叶斯决策
训练样本X被错误分类的条件期望风险\(R(\Theta_{i}|X)\)定义为

\[R(\Theta_{i}|X)=\sum \limits_{j=1}^{n}\Lambda_{ij}\frac{P(\Theta_{i})P(X|\Theta_{i})}{P(X)} \]

其中,\(P(\Theta_{i})\)表示模型将样本X分类为\(\Theta_{i}\)的先验概率,\(\Lambda_{ij}\)为相应损失函数。

贝叶斯分类

通过对贝叶斯条件风险进行最小值优化的方式构造分类模型,这些模型成为贝叶斯分类模型

朴素贝叶斯

朴素的含义:假设样本的每个特征之间是相互独立的,不存在依赖关系。
根据条件,将贝叶斯公式改写为

\[P(\Theta_{i}|X)=\frac{P(\Theta)\prod \limits_{k=1}^{d}P(x_{k}|\Theta_{i})}{\prod \limits_{k=1}^{d}P(x_{k})} \]

高斯贝叶斯分类器(GaussianNB)

在高斯朴素贝叶斯中,每个特征都是连续的,并且都呈高斯分布。高斯分布又称为正态分布。 GaussianNB 实现了运用于分类的高斯朴素贝叶斯算法。特征的可能性(即概率)假设为高斯分布:
在这里插入图片描述

算法优缺点

优点

缺点

标签:NLP,模型,分类,贝叶斯,先验概率,Theta,朴素
来源: https://www.cnblogs.com/LogicG/p/16464567.html