统计分析 | R 软件介绍 | 描述性统计 | 概率概念 | 离散概率分布 | 连续概率分布 | 其他连续概率分布 | 抽样和抽样分布 | 均值和比例的置信区间 | 均值和比例的假设检验
回归分析和相关分析
简单线性回归
简单线性回归是一种统计技术,用于显示一个因变量和一个自变量之间的关系。 因变量表示为 Y,而自变量表示为 X。变量 X 和 Y 线性相关。 简单线性回归可用于: (a) 描述一个变量对另一个变量的线性相关性; (b) 根据另一个变量的值预测一个变量; (c) 修正一个变量对另一个变量的线性相关性。
简单线性回归模型的形式为:
Yi=β0+β1Xi+εi
其中 β0 和 β1 是 X 的截距和回归系数,ϵ 是误差项。
上述中回归系数的解可以使用最小二乘法得出:
ei=Yi−β0−β1Xi
要找到残差平方和的最小和(最小二乘线上留下的位),请将下面的总和设置为零:
∑i=1n(ei)2=∑i=1n(Yi−β0−β1Xi)2=0
上述,对 $\beta_{1}$ 的偏导数:
δβ0δ∑i=1n(Yi−β0−β1Xi)2=−2(nβ0+β1∑i=1nXi−∑i=1nYi)=0
将上述除以 2,求解 β0,得到
β0=Yˉ−β1Xˉ
现在,
δβ1δ∑i=1n(Yi−β0−β1Xi)2=−2∑i=1n(XiYi−β0Xi−β1Xi2)=0
代入 β0 的值,
i=1∑n(XiYi−(Yˉ−β1Xˉ)Xi−β1Xi2)=0i=1∑n(XiYi−XiYˉ−β1XiXˉ−β1Xi2)=0i=1∑n(XiYi−XiYˉ)−β1i=1∑n(Xi2−XiXˉ)=0
因此,
β1=∑i=1n(Xi2−XiXˉ)∑i=1n(XiYi−XiYˉ)=∑i=1n(Xi2)−nXˉ2∑i=1n(XiYi)−nXˉYˉ=var(X)cov(X,Y)
其中 cov(X,Y) 是 X 和 Y 的协方差——衡量 X 如何随 Y 变化的量度。
示例:
问题:在一堂统计课上,测量了 30 名学生的体重和身高,如下表所示。
Student Height (m) Weight (kg) Student Height (m) Weight (kg) Student Height (m) Weight (kg) Student Height (m) Weight (kg) 11.4392.18101.82101.55192.39113.36281.4182.4921.1077.76111.5776.37201.8364.71291.3887.9831.2465.44121.5991.66212.02103.79301.1867.5441.36114.19132.1975.85221.9970.0252.2682.81141.5488.82231.4078.3561.25106.66152.0683.02241.5480.7071.7494.44161.8674.66251.6090.5481.5575.32171.7697.57261.8891.5591.5167.35181.51104.56271.5282.57
使用您在 (1) 中的答案来估算身高为 1.80 时,学生的体重值。
解:
根据以上数据,我们得到以下结果:
∑XY=4282.115,∑Y=2583.81,∑X=49.48,n=30,Xˉ=1.6493Yˉ=86.127,∑X2=84.699
这些值代入方程中,
β1=∑i=1n(Xi2)−nXˉ2∑i=1n(XiYi)−nXˉYˉ=84.699−30(1.6493)24282.115−30(1.6493)(86.13)=6.6503
回归的斜率为 6.6503。
然后代入方程中的 Yˉ,Xˉ 和 β1,得到常数项:
β0=Yˉ−β1Xˉ=86.13−(6.6503)(1.6493)=75.1587
体重 = 75.16 6.65*1.80 = 87.13
R 中的回归计算:
在 R 中指定身高和体重的值,如下所示:
height<-c(1.43, 1.10, 1.24, 1.36, 2.26, 1.25, 1.74, 1.55, 1.51, 1.82, 1.57, 1.59,
2.19, 1.54, 2.06, 1.86, 1.76, 1.51, 2.39, 1.83, 2.02, 1.99, 1.40, 1.54, 1.60,
1.88, 1.52, 1.41, 1.38, 1.18)
weight<-c(92.18, 77.76, 65.44, 114.19, 82.81, 106.66, 94.44, 75.32, 67.35,
101.55, 76.37, 91.66, 75.85, 88.82, 83.02, 74.66, 97.57, 104.56, 113.36, 64.71,
103.79, 70.02, 78.35, 80.70, 90.54, 91.55, 82.57, 82.49, 87.98, 67.54)
通过回归学生的体重与身高来拟合模型,结果将随之而来。
model.fit<-lm (weight~height)
summary(model.fit)
Call:
lm(formula = weight ~ height)
Residuals:
Min 1Q Median 3Q Max
-22.619 -9.917 -2.371 7.660 29.987
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 75.159 13.433 5.595 5.47e-06 ***
height 6.650 7.995 0.832 0.413
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 14.05 on 28 degrees of freedom
Multiple R-squared: 0.02412, Adjusted R-squared: -0.01074
F-statistic:0.6919 on 1 and 28 DF, p-value: 0.4125
在上面的结果中,残差统计、系数估计(带有标准误差和相关的 p 值)和所有其他统计(多重 R 平方、调整 R 平方、F 统计等)显示在输出。
泊松分布 | 均匀分布 | 时间序列分析