高尔顿数据集和Anscombe四重奏数据集
作者:互联网
文章目录
一、一元线性回归
一、父子线性回归
任务要求:
对“父母子女身高”数据集(高尔顿数据集)进行线性回归分析(简化的做法可选取父子身高数据为X-Y),用excel计算线性回归方程和相关系数、方差、p值等,判断回归方程是否成立?
打开老师给的父母子女身高数据集
数据—>数据分析—>回归
选取父子身高数据为X-Y
父亲身高为X,子女身高为Y
删除重复数据的线性回归(422个样本)
线性拟合图
第一个是对模型的解释程度,需要注意是R-Square,这是一个衡量线性回归模型能否很好解释变量的变异程度的指标,R-Square越高模型越好。
Multiple R 是指线性相关系数
R Square 是拟合系数
Adjusted R Square 是调整后的拟合系数
第二个是方差分析,这里注意F统计量和Significance-F
df是指自由度,SS离差平方和,MS均方离差。
方差分析这里的F统计量,是反映总体回归关系是否存在,因为我们是用样本来估计总体参数,所以当我们评估了样本的模型的R-Square之后,就要进行总体回归关系评估,这里采用的是假设检验的思想:
原假设是认为 自变量的系数为0,也就是说自变量和因变量并无线性相关关系
备择假设便是不为0,具有线性相关关系
这里是置信水平95%下,双侧检验的用F统计量来衡量的假设检验
用显著性水平α=0.05,这里的Significance-F < α,代表着:落入拒绝域,也就是拒绝原假设。这里的Significance-F可以理解为p-value
P值
现在如果有一个新家庭的数据,已知父亲身高75英寸,请测算儿子的身高为多少?
通过方程Y=0.366X+41.557
带入75
得到的最后的数据为69.007
二、母子线性回归
线性拟合图
分析的数据
三、多元线性回归
线性拟合图
分析数据
二、Anscombe四重奏
一、数据一
数据一的线性拟合图
分析数据
测定系数 = 0.666542
残差平方和 = 13.76269
P 值 = 0.00217
回归方程:y = 0.5x + 3
二、数据二
数据二的线性拟合图
分析数据
测定系数 = 0.666242
残差平方和 = 13.77629
P 值 = 0.002179
回归方程:y = 0.5x + 3
三、数据三
数据三的线性拟合图
测定系数 = 0.666324
残差平方和 = 13.75619
P 值 = 0.002179
回归方程:y = 0.5x + 3
四、数据四
数据四的线性拟合图
分析数据
测定系数 = 0.666707
残差平方和 = 13.74249
P 值 = 0.002165
回归方程:y = 0.5x + 3
任务要求:
用excel对四组数据进行线性回归分析,判断其中哪些回归方程是成立的,哪些不成立?不成立的应该如何解决?
数据一 数据分步在回归线趋势线的上下两侧,且较为分散,故该回归方程不成立,且不可做回归方程。
数据二 数据散点基本呈现为“抛物线”形状,且回归趋势线与源数据散点完全不符,故该回归方程不成立。
数据三 从图像上看回归趋势线基本符合散点图分步情况,虽然散点图中有一个异常点,但不影响总体趋势,故该回归方程成立。
数据四 从图像上看,数据散点绝大部分的 X 值相等,而只有一个异常点位于右侧,该异常点严重影响回归方程的准确性,回归趋势线与散点完全不符,故该回归方程不成立。若去除右侧异常点即可做符合散点分步的回归方程。
三、参考资料
Excel 2016 做线性回归分析【高尔顿数据集】与【Anscombe四重奏数据集】
标签:高尔顿,回归,回归方程,线性,Anscombe,拟合,四重奏,身高,数据 来源: https://blog.csdn.net/weixin_45888898/article/details/114936750