首页 > 编程语言> > Python-线性回归模型

Python-线性回归模型

2022-02-10 15:04:22 作者：互联网

从线性回归(Linear regression)开始学习回归分析，线性回归是最早的也是最基本的模型——把数据拟合成一条直线。数据集使用scikit-learn里的数据集boston,boston数据集很适合用来演示线性回归。boston数据集包含了波士顿地区的房屋价格中位数。还有一些可能会影响房价的因素，比如犯罪率（crime rate）。

加载数据

from sklearn import datasets
boston = datasets.load_boston()
import pandas as pd
import warnings # 用来忽略seaborn绘图库产生的warnings
warnings.filterwarnings("ignore")
import seaborn as sns
import matplotlib.pyplot as plt
sns.set(style="white", color_codes=True)
%matplotlib inline

dfdata = pd.DataFrame(boston.data,columns=boston.feature_names)
dfdata["target"] = boston.target
dfdata.head()

fig = plt.figure()
for i,f in enumerate(boston.feature_names):
    sns.jointplot(x=f, y="target", data=dfdata, kind='reg', size=6)

线性回归模型

用scikit-learn的线性回归非常简单
首先，导入LinearRegression类创建一个对象：

from sklearn.linear_model import LinearRegression
lr = LinearRegression()

现在，再把自变量和因变量传给LinearRegression的fit方法：
lr.fit(boston.data, boston.target)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)

开始预测

predictions = lr.predict(boston.data)

用预测值与实际值的残差（residuals）直方图分布来直观显示预测结果：

%matplotlib inline
f, ax = plt.subplots(figsize=(7, 5))
f.tight_layout()
ax.hist(boston.target-predictions,bins=40, label='Residuals Linear', color='b', alpha=.5);
ax.set_title("Histogram of Residuals")
ax.legend(loc='best');

lr.coef_

def plotCofBar(x_feature,y_cof):
    x_value = range(len(x_feature))
    plt.bar(x_value, y_cof, alpha = 1, color = 'r', align="center")
    plt.autoscale(tight=True)
    plt.xticks([i for i in range(len(x_feature))],x_feature,rotation="90")
    plt.xlabel("feature names")
    plt.ylabel("cof")
    plt.title("The cof of Linear regression")
    plt.show()

plotCofBar(boston.feature_names,lr.coef_)

线性回归原理
线性回归的基本理念是找出满足 y=Xβy=Xβ 的相关系数集合 ββ ，其中 XX 是因变量数据矩阵。想找一组完全能够满足等式的相关系数很难，因此通常会增加一个误差项表示不精确程度或测量误差。因此，方程就变成了 y=Xβ+ϵy=Xβ+ϵ，其中 ϵϵ 被认为是服从正态分布且与 XX 独立的随机变量。用几何学的观点描述，就是说这个变量与 XX 是正交的（perpendicular）。可以证明 E(Xϵ)=0E(Xϵ)=0。

为了找到相关系数集合 ββ ，我们最小化误差项，这转化成了残差平方和最小化问题。

这个问题可以用解析方法解决，其解是:

线性回归可以自动标准正态化(normalize或scale)输入数据

lr2 = LinearRegression(normalize=True)
lr2.fit(boston.data, boston.target)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=True)

predictions2 = lr2.predict(boston.data)
%matplotlib inline
from matplotlib import pyplot as plt
f, ax = plt.subplots(figsize=(7, 5))
f.tight_layout()
ax.hist(boston.target-predictions2,bins=40, label='Residuals Linear', color='b', alpha=.5);
ax.set_title("Histogram of Residuals")
ax.legend(loc='best');

标签：plt,Python,boston,模型,feature,LinearRegression,线性,ax,True
来源： https://www.cnblogs.com/Zshirly/p/15879079.html