Python数据分析与挖掘实战学习15
作者:互联网
一、回归模型
1.Logistic回归分析介绍
(1)Logistic函数
Logistic回归模型中的因变量只有1-0(如是和否、发生和不发生)两种取值。假设在p个独立自变量x1,x2,…,xp作用下记y取1的概率是p=P(y=1|X),取0概率是1-p,取1和取0的概率之比为 ,称为事件的优势比(odds),对odds取自然对数即得Logistic变换 。
令 ,则 即为Logistic函数,如下图所示:
当p在(0,1)之间变化时,odds的取值范围是(0,+∞),则 的取值范围是(-∞,+∞)。
(2)Logistic回归模型
Logistic回归模型是建立在 与自变量的线性回归模型。
Logistic回归模型为:
因为 的取值范围是(-∞,+∞),这样,自变量x1,x2,…,xp可在任意范围内取值。记 ,得到:
(3)Logistic回归模型解释
:在没有自变量,即x1,x2,…,xp全部取0,y=1与y=0发生概率之比的自然对数;
:某自变量xi变化时,即xi=1与xi=0相比,y=1优势比的对数值。
(4)Logistic回归建模步骤
Logistic回归模型的建模步骤如图所示:
1)根据分析目的设置指标变量(因变量和自变量),然后收集数据,根据收集到的数据,对特征再次进行筛选;
2)y取1的概率是p=P(y=1|X),取0概率是1-p。用 和自变量列出线性回归方程,估计出模型中的回归系数;
3)进行模型检验。模型有效性的检验指标有很多,最基本的有正确率,其次有混淆矩阵、ROC曲线,KS值等。
4)模型应用:输入自变量的取值,就可以得到预测变量的值,或者根据预测变量的值去控制自变量的取值。
逻辑回归本质上还是一种线性模型,因此这里的模型有效性检验本质上还是在做线性相关检验,因此,所筛选出来的变量,说明与结果具有较强的线性相关性,然而被筛选掉的变量并不一定就跟结果没有关系,因为它们之间有可能是非线性关系。
二、决策树
决策树方法在分类、预测、规则提取等领域有着广泛应用。20世纪70年代后期和80年代初期,机器学习研究者J.Ross Quinlan提出了ID3算法以后,决策树在机器学习、数据挖掘领域得到极大的发展。Quinlan后来又提出了C4.5,成为新的监督学习算法。1984年,几位统计学家提出了CART分类算法。ID3和CART算法几乎同时被提出,但都是采用类似的方法从训练样本中学习决策树。
决策树是一树状结构,它的每一个叶结点对应着一个分类,非叶结点对应着在某个属性上的划分,根据样本在该属性上的不同取值将其划分成若干个子集。对于非纯的叶结点,多数类的标号给出到达这个节点的样本所属的类。构造决策树的核心问题是在每一步如何选择适当的属性对样本做拆分。对一个分类问题,从已知类标记的训练样本中学习并构造出决策树是一个自上而下,分而治之的过程。
决策树算法 | 算法描述 |
ID3算法 | 其核心是在决策树的各级节点上,使用信息增益方法作为属性的选择标准,来帮助确定生成每个节点时所应采用的合适属性 |
C4.5算法 | C4.5决策树生成算法相对于ID3算法的重要改进是使用信息增益率来选择节点属性。C4.5算法可以克服ID3算法存在的不足;ID3算法只适用于离散的描述属性,而C4.5算法既能够处理离散的描述属性,也可以处理连续的描述属性 |
CART算法 | CART决策树是一种十分有效的非参数分类和回归方法,通过构建树、修剪树、评估树来构建一个二叉树。当终结点是连续变量时,该树为回归树;当终结点是分类变量,该树为分类数。 |
1.ID3算法具体流程
ID3算法的具体详细实现步骤如下:
1)对当前样本集合,计算所有属性的信息增益;
2)选择信息增益最大的属性作为测试属性,把测试属性取值相同的样本划为同一个子样本集;
3)若子样本集的类别属性只含有单个属性,则分支为叶子结点,判断其属性值并标上相应的符号,然后返回调用处;否则对子样本集递归调用本算法。
标签:数据分析,15,Python,模型,ID3,算法,Logistic,属性,决策树 来源: https://blog.csdn.net/qq_37170467/article/details/111812902