其他分享
首页 > 其他分享> > 挖掘建模①—分类与预测

挖掘建模①—分类与预测

作者:互联网

python基础知识及数据分析工具安装及简单使用(Numpy/Scipy/Matplotlib/Pandas/StatsModels/Scikit-Learn/Keras/Gensim))
数据探索(数据清洗)①——数据质量分析(对数据中的缺失值、异常值和一致性进行分析)
数据探索(数据清洗)②—Python对数据中的缺失值、异常值和一致性进行处理

挖掘建模①—分类与预测

挖掘建模

经过数据探索与数据预处理部分,得到了可以直接建模的数据。根据挖掘目标和数据形式可以建立分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等模型,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力。

分类与预测

分类主要是预测分类标号(离散、无序的),而预测主要是建立连续值函数模型,预测给定自变量的条件下因变量的值。

分类

分类,指将数据映射到预先定义好的群组或类。
因为在分析测试数据之前,类别就已经确定了,所以分类通常被称为有监督的学习。分类算法要求基于数据属性值来定义类别。分类就是构造一个分类模型,把具有某些特征的数据项映射到某个给定的类别上。下图是一个三分类问题:
在这里插入图片描述

实现过程

在这里插入图片描述
在这里插入图片描述

预测

确定两种或两种以上变量间相互依赖的函数模型,然后进行预测或控制。

实现过程

预测的实践过程与分类的时间过程类似。

常用的分类与预测算法

在这里插入图片描述

回归分析

回归分析是通过建立模型来研究变量之间相互关系的密切程度、结构状态及进行模型预测的一种有效工具,在工商管理、经济、社会、医学和生物学等领域应用十分广泛。

回归分析研究的范围:
在这里插入图片描述
在数据挖掘环境下,自变量与因变量具有相关关系,自变量的值是已知的,因变量是要预测的

常用的回归模型如下:
在这里插入图片描述

Logistic函数

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

决策树

决策树是一树状结构,它的每一个树结点可以是叶节点,对应着某一类,也可以对应着一个划分,将该节点对应的样本集划分成若干个子集,每个子集对应一个节点。对一个分类问题,从已知类标记的训练元组学习并构造出决策树是一个从上至下,分而治之的过程。

常用的决策树算法
在这里插入图片描述
ID3算法是一种基于信息熵的决策树分类算法,它选择当前样本集中具有最大信息增益值的属性作为测试属性;样本集的划分则依据测试属性的取值进行,测试属性有多少不同取值就将样本集划分为多少子样本集,同时,决策树上相应于该样本集的节点长出新的叶子节点。ID3算法根据信息理论,采用划分后样本集的不确定性作为衡量划分好坏的标准,用信息增益值度量:信息增益值越大,不确定性越小。因此,ID3算法在每个非叶节点选择信息增益最大的属性作为测试属性。该属性使得对结果划分中的样本分类所需的信息最小,并反映划分的最小随机性。

人工神经网络

人工神经网络(Artificial Neural Networks,ANNs),是模拟生物神经网络进行信息处理的一种数学模型。它以对大脑的生理研究成果为基础,其目的在于模拟大脑的某些机理与机制,实现一些特定的功能。
在这里插入图片描述

在这里插入图片描述
人工神经网络的学习也称为训练,指的是神经网络在受到外部环境的刺激下调整神经网络的参数,使神经网络以一种新的方式对外部环境作出反应的一个过程。在分类与预测中,人工神将网络主要使用有指导的学习方式,即根据给定的训练样本,调整人工神网络的参数以使网络输出接近于已知的样本类标记或其他形式的因变量。

在这里插入图片描述
在这里插入图片描述

分类与预测算法评价

分类与预测模型对训练集进行预测而得出的准确率并不能很好地反映预测模型未来的性能,为了有效判断一个预测模型的性能表现,需要一组没有参与预测模型建立的数据集,并在该数据集上评价预测模型的准确率,这组独立的数据集叫测试集。模型预测效果评价,通常用相对绝对误差、平均绝对误差、根均方差、相对平方根误差等指标来衡量。

绝对误差与相对误差

在这里插入图片描述

平均绝对误差

在这里插入图片描述

均方误差

在这里插入图片描述

均方根误差

在这里插入图片描述

平均绝对百分误差

在这里插入图片描述

Kappa统计

Kappa统计是比较两个或多个观测者对同一事物,或观测者对同一事物的两次或多次观测结果是否一致,以由于机遇造成的一致性和实际观测的一致性之间的差别大小作为评价基础的统计指标。Kappa统计量和加权Kappa统计量不仅可以用于无序和有序分类变量资料的一致性、重现性检验,而且能给出一个反映一致性大小的“量”值。

Kappa取值在[-1,+1]之间,其值的大小均有不同意义:

识别准确度

在这里插入图片描述

识别精确率

在这里插入图片描述

反馈率

在这里插入图片描述

ROC曲线

在这里插入图片描述

混淆矩阵

在这里插入图片描述

标签:Kappa,预测,模型,分类,建模,算法,挖掘,回归
来源: https://blog.csdn.net/qq_37746855/article/details/121732143