天池机器学习训练营笔记--第一天 基于逻辑回归的分类预测
作者:互联网
1 什么是逻辑回归
假设现在有一些数据点,我们用一条线(准确的说是超平面)对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作回归。逻辑回归(Logistic regression,简称LR)就是根据现有数据建立回归方程来确定分类边界,并以此来分类。因此虽然其中带有"回归"两个字,但逻辑回归其实是一种分类模型。
逻辑回归模型广泛用于各个领域,包括机器学习,大多数医学领域和社会科学。例如,最初由Boyd 等人开发的创伤和损伤严重度评分(TRISS)被广泛用于预测受伤患者的死亡率,使用逻辑回归基于观察到的患者特征(年龄,性别,体重指数,各种血液检查的结果等)分析预测发生特定疾病(例如糖尿病,冠心病)的风险。逻辑回归模型也用于预测在给定的过程中,系统或产品的故障的可能性。还用于市场营销应用程序,例如预测客户购买产品或中止订购的倾向等。在经济学中它可以用来预测一个人选择进入劳动力市场的可能性,而商业应用则可以用来预测房主拖欠抵押贷款的可能性。条件随机字段是逻辑回归到顺序数据的扩展,用于自然语言处理。
2 逻辑回归模型原理
2.1 二项逻辑回归模型
最简单逻辑回归模型是二项逻辑回归模型,它作为一种分类器,对输入数据进行二分类,输出由条件概率表示,模型形式为参数化的Logistic分布:
[公式]
[公式] 是输入是输出和是参数称为权值向量称为偏置为和的内积
现在看一下模型的图形, [公式] 的输出在(0,1),大致满足概率分布的要求,当 [公式] 时,输出为正类的概率小于0.5,则模型认为输入数据属于负类。因此,当模型参数、确定之后,就能利用模型的输出对输入数据进行分类。
2.2 模型参数估计
逻辑回归模型学习时,对于给定的训练数据集 [公式] ,其中, [公式] , [公式] ,可以应用极大似然估计法估计模型参数,从而得到逻辑回归模型。
设:
[公式]
似然函数:
[公式]
对数似然函数为
[公式]
到这里问题转换为对 [公式] 求极大值的最优化问题,使用梯度下降法或牛顿法可以得到 [公式] 的估计值。
2.3 多项逻辑回归模型
上述的二项逻辑回归模型只能用于判断正负样本的二分类,如果想将逻辑回归用于多分类,则需要其做一些调整。一种方法是对于K个类别,我们使用k-1个二项逻辑回归分类模型。首先选择其中一个类别作为主类别,记为第K类,运行k-1个逻辑回归模型,每一次都是对数据进行二分类,判断数据属于第K类还是第i类,这里 [公式] 。在每一次二分类过程中有个假设的前提: [公式] 和 [公式] 的概率和为1,即:
[公式]
将逻辑回归的表达式带入可得:
[公式]
能够得到以下公式:
[公式]
因为所有概率的和为1,所以可以得到:
[公式]
则可得到每个类别的输出概率:
[公式]
多项逻辑回归模型的参数估计方法也可以类比二项逻辑回归模型。
编辑于 5 小时前
标签:逻辑,模型,--,公式,训练营,分类,天池,回归,二项 来源: https://blog.csdn.net/qq_43165081/article/details/112299640