Excel数据线性回归
作者:互联网
关于线性回归
线性回归(Linear regression)是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。其表达形式为y = w'x+e,e为误差服从均值为0的正态分布。
回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
- 相关系数就是两个变量之间的相关程度,r<0负相关,r>0正相关,r越接近1表示越相关
P值即概率,反映某一事件发生的可能性大小。统计学根据显著性检验方法所得到的P 值,一般以P < 0.05 为显著, P<0.01 为非常显著,其含义是样本间的差异由抽样误差所致的概率小于0.05 或0.01。 - 需要注意的是:在非线性回归中,不可以用p值检验相关显著性, 因为在非线性回归中,残差均值平方不再是误差方差的无偏估计,因而不能使用线性模型的检验方法来检验非线性模型,从而不能用F统计量及其P值进行检验
- 对于非线性相关可以从两个方面来看拟合情况
1、通过“非线性模型统计摘要表”计算出R2=1-residual/correct,越接近于1越好
2、通过“观测与预测值的双轴散点图”来直观地判断模型拟合情况
1、工具
选择Excel进行数据分析
2、下载安装
百度网盘链接:
Excel
提取码:x6tv
准备工作
添加数据分析工具
1、选择文件,点击更多打开选项
2、点击加载项,将管理中的改为Excel加载项,点击转到
3、勾选分析数据库、分析数据库-VBA点击确定
4、可以看到有数据这一栏表述添加成功
一、“父母子女身高”数据集线性回归分
1、删除重复项
打开数据选项点击删除重复项
2、点击数据分析,选择回归点击确定
3、输入X、Y值区域以及确定回归分析图位置,点击对应数据位置,会显示区域
在这里我以父亲身高为X值,儿子身高为Y值
4、点击散点,点击设置趋势线格式
5、勾选所需要的趋势线选项
6、可双击坐标轴设置最大值与最小值,最终生成图表
父母身高的平均值与子女身高的线性相关性较弱,R平方表现为相关性较弱,P值远远小于0.01,回归方程是可靠的。
二、 Anscombe四重奏数据集线性回归分析
不是很能够表现原始数据的一个变化趋势,所有该线性回归方程不成立。
该线性回归方程不成立
线性基本能够表现原始数据的一个变化趋势
,有少数极端数据存在
该线性回归方程不成立
三、鸢尾花Iris数据集SVM线性分类
1、Anaconda创建虚拟环境及安装包
创建虚拟环境
安装python3.6/3.7、Anaconda 和 jupyter、spyder软件。创建一个名为 exam1的虚拟环境,在虚拟环境下安装 numpy、pandas、sklearn包。 按照课件上的代码例子(参看群文件“支持向量机-课件(鸢尾花示例代码).docx”),对鸢尾花Iris数据集进行SVM线性分类练习。
标签:分析,Excel,回归,回归方程,点击,虚拟环境,线性 来源: https://blog.csdn.net/zby9928/article/details/114935489