- 1.37 MB
- 2021-04-20 发布
回归分析的基本思想及其初步应用
【学习目标】
1. 通过对实际问题的分析,了解回归分析的必要性与回归分析的一般步骤。
2. 能作出散点图,能求其回归直线方程。
3. 会用所学的知识对简单的实际问题进行回归分析。
【要点梳理】
要点一、变量间的相关关系
1. 变量与变量间的两种关系:
(1) 函数关系:这是一种确定性的关系,即一个变量能被另一个变量按照某种对应法则唯一确定.例如圆的面积.S与半径r之间的关系S=πr2为函数关系.
(2)相关关系:这是一种非确定性关系.当一个变量取值一定时,另一个变量的取值带有一定的随机性,这两个变量之间的关系叫做相关关系。例如人的身高不能确定体重,但一般来说“身高者,体重也重”,我们说身高与体重这两个变量具有相关关系.
2. 相关关系的分类:
(1)在两个变量中,一个变量是可控制变量,另一个变量是随机变量,如施肥量与水稻产量;
(2)两个变量均为随机变量,如某学生的语文成绩与化学成绩.
3. 散点图:
将两个变量的各对数据在直角坐标系中描点而得到的图形叫做散点图.它直观地描述了两个变量之间有没有相关关系.这是我们判断的一种依据.
4. 回归分析:
与函数关系不同,相关关系是一种非确定性关系,对具有相关关系的两个变量进行统计分析的方法叫做回归分析。
要点二、线性回归方程:
1.回归直线
如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。
2.回归直线方程
对于一组具有线性相关关系的数据,,……,,其回归直线的截距和斜率的最小二乘法估计公式分别为:
,
其中表示数据xi(i=1,2,…,n)的均值,表示数据yi(i=1,2,…,n)的均值,表示数据xiyi(i=1,2,…,n)的均值.
、的意义是:以为基数,x每增加一个单位,y相应地平均变化个单位.
要点诠释:
①回归系数,也可以表示为,这样更便于实际计算。
②;。
③称为样本中心点,回归直线必经过样本中心点。
④回归直线方程中的表示x增加1个单位时的变化量,而表示不随x的变化而变化的量。
3.求回归直线方程的一般步骤:
①作出散点图
由样本点是否呈条状分布来判断两个量是否具有线性相关关系,若存在线性相关关系,进行第二步。
②求回归系数、
计算,,
,,
利用公式求出,
再由求出的值;
③写出回归直线方程;
④利用回归直线方程预报在x取某一个值时y的估计值。
要点诠释:
一般地,我们可以利用回归直线方程进行预测,但这里所得到的值是预报值,而不是精确值,它带有很大的随机性,可能对于某一次的实际值而言会有很大的出入,这是因为:
(1)回归直线的截距和斜率都是通过样本估计出来的,存在随机误差,这种误差可以导致预测结果的偏差。
(2)即使截距和斜率的估计没有误差,也不可能保证对应于x的预报值
能够与实际值y很接近。我们不能保证点(x,y)落在回归直线上,甚至不能保证它落在回归直线的附近,事实上,,这里是随机变量,预报值与实际值y的接近程度由随机变量决定。
尽管我们利用回归直线方程所得到的值仅是一个预报值,它具有随机性,但它是我们根据统计规律所得到的结论,因而结论正确的概率很大。故我们可以放心地利用回归直线方程进行预测。
要点三、相关性检验
(1)相关系数r的定义
对于变量x与y随机抽取到的n对数据,,……,,称为x与y的样本相关系数。
(2)相关系数r的作用
样本相关系数r用于衡量两个变量之间是否具有线性相关关系,描述线性相关关系的强弱:
①
越接近1,表明两个变量之间的线性相关程度越强;越接近0,表明两个变量之间的线性相关程度越弱。
②当r>0时,表明两个变量正相关, 即x增加,y随之相应地增加,若x减少,y随之相应地减少.
当r<0时,表明两个变量负相关, 即x增加,y随之相应地减少;若x减少,y随之相应地增加.
若r=0,则称x与y不相关。
③当,认为x与y之间具有很强的线性相关关系。
④当大于时,表明有95%的把握认为x与y之间具有线性相关关系,这时求回归直线方程有必要也有意义,当时,寻找回归直线方程就没有意义。
(3)利用相关系数r检验的一般步骤:
法一:
①作统计假设:x与y不具有线性相关关系。
②根据样本相关系数计算公式算出r的值。
③比较与0.75的大小关系,得出统计结论。如果,认为x与y之间具有很强的线性相关关系。
法二:
①作统计假设:x与y不具有线性相关关系。
②根据样本相关系数计算公式算出r的值。
③根据小概率0.05与n-2在相关性检验的临界值表中查出r的一个临界值(n未数据的对数)。
④比较与,作统计推断,如果,表明有95%的把握认为x与y之间具有线性相关关系。如果,我们没有理由拒绝原来的假设,即不认为x与y之间具有线性相关关系。这时寻找回归直线方程是毫无意义的。
要点四、线性回归分析与非线性回归分析
1.线性回归分析
对于回归分析问题,在解题时应首先利用散点图或相关性检验判断x与y是否具有线性相关关系,如果线性相关,才能求解后面的问题.否则求线性回归方程没有实际意义,它不能反映变量x与y,之间的变化规律.只有在x与y之间具有相关关系时,求线性回归方程才有实际意义.
相关性检验的依据:主要利用检验统计量
(其中化简式容易记也好用)求出检验统计量的样本相关系数,再利用r的性质确定x和y是否具有线性相关关系,r具有的性质为:|r|≤1且|r|越接近于1,线性相关程度越强;|r|越接近于0,线性相关程度越弱.
2. 线性回归分析的一般步骤
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
(2)判断两变量是否具有线性相关关系
①作散点图
由样本点是否呈条状分布来判断两个量是否具有线性相关关系。
②求相关系数r
当,认为x与y之间具有很强的线性相关关系。
(3)若两变量存在线性相关关系,设所求的线性回归方程为,求回归系数、。
(4)写出回归直线方程;
(5)利用回归直线方程预报在x取某一个值时y的估计值。
3.非线性回归分析
(1)对于非线性回归分析问题,如果给出了经验公式可直接利用换元,使新元与y具有线性相关关系,进一步求出,,对新元的线性回归方程,换回x即可得y对x的回归曲线方程.
(2)非线性回归问题有时并不给出经验公式,这时按以下步骤求回归方程:
①
画出已知数据的散点图,看是否是线性回归分析问题,如果不是,把它与必修数学中学过的函数(幂函数、指数函数、对数函数等)图像作比较,挑选一种跟这些散点拟合得最好的函数,采用适当的变量置换,把非线性回归分析问题化为线性回归分析问题.
②作相关性检验,即判断寻找线性回归方程是否有意义.
③当寻找线性回归方程有意义时,计算系数,,得到线性回归方程.
④代回x得y对x的回归曲线方程.
【典型例题】
【高清课堂:回归分析的基本思想及其初步应用407591例题1】
类型一、利用散点图判断两个变量的线性相关性
例1. 在某种产品表面进行腐蚀刻线试验,得到腐蚀深度y与腐蚀时间x的一组数据如下表所示.
x/秒
5
10
15
20
30
40
50
60
y/微米
6
10
11
13
16
17
19
23
(1)画出散点图.
(2)根据散点图,你能得出什么结论?
【思路点拨】 利用散点图,直观地归结出相关关系的两个变量所具备的特点.
【解析】 (1)如图所示散点图.
(2)结论:设x与y是具有相关关系的两个变量,且相应于n组观测值的n个点大致分布在一条直线附近,其中整体上与这n个点最接近的一条直线最能代表x与y之间的关系.
【总结升华】
①解决此类问题,最直观也最直接的方法就是画散点图。如果散点图中的点分布在一条直线附近,那么就可判断两个变量之间具有近似的线性相关关系。可进一步对它进行回归分析。
②解决本题的关键是正确建立坐标系,合理地选取单位长度准确地描出所有点,然后观察散点图中的点呈现在一条直线附近即说明二者具有线性相关关系。解决此类题目,由于有时数据较大,在建立平面直角坐标系时,若单位长度确定不合适,往往容易造成描点的困难。因此必须选择适当的单位长度。
举一反三:
【变式1】给出x与y的数据如下:
x
2
4
5
6
8
y
30
40
60
50
70
画出散点图,并由图判断x、y之间是否具有线性相关关系。
【答案】散点图如图所示:
从图中可以看出,各点散布在一条直线附近,即可认为x与y具有线性相关关系。
【变式2】 如图所示的5组数据中,去掉________点,剩下的4组数据的线性相关系数最大.
【答案】D,由本图的直观性可得。
【变式3】如下表所示,某地区一段时间内观察到的大于或等于某震级x的地震个数为N,试画出散点图,并由图判断x、N之间是否具有线性相关关系。
震级
3
3.2
3.4
3.6
3.8
4
4.2
4.4
4.6
4.8
5.0
地震数
28381
20380
14795
10695
7641
5502
3842
2698
1919
1356
973
震级
5.2
5.4
5.6
5.8
6
6.2
6.4
6.6
6.8
7
地震数
746
604
435
274
206
148
98
57
41
25
【答案】由表中数据得散点图如下:
从散点图中可以看出,震级x与大于该震级的地震次数N之间不呈线性相关关系,随着x的减少,所考察的地震数N近似地以指数形式增长.
类型二、运用样本相关系数r检验线性相关关系
例2.下表是随机抽取的对母女的身高数据,试根据这些数据探讨与之间的关系.
母亲身高
女儿身高
【思路点拨】相对于用散点图检验相关性,利用相关系数r,检验两个变量之间的线性相关关系的强弱更为准确。
【解析】所给数据的散点图如图所示:由图可以看出,这些点在一条直线附近,
因为,,
,
,
,
所以,
由检验水平及,在附录中查得,因为,所以可以认为与之间具有较强的线性相关关系.
【总结升华】
(1)讨论x与y之间的线性相关关系,一般称之为相关性检验。一般地,相关性检验是讨论线性回归模型的第一步。当时,可以认为两个变量有很强的线性相关关系,此时,建立线性回归模型是有意义的,其他情况下,建立线性回归模型意义就不大了,基本上没有什么价值。
(2)相关系数r的计算公式:
(3)利用相关系数r检验两个变量之间的线性相关关系的强弱的步骤:
①运用公式求出相关系数r;
②比较与0.75的大小关系,得出统计结论。如果,认为x与y之间具有很强的线性相关关系。
举一反三:
【变式1】给出x与y的数据如下:
x
2
4
5
6
8
y
30
40
60
50
70
判断x与y的线性相关性。
【答案】相关性检验:
,,,
,,
所以。
因为,所以x与y之间有很强的线性相关关系。
【变式2】
要分析学生高中入学的数学成绩对高一年级数学学习的影响,在高一年级学生中随机抽取名学生,分析他们入学的数学成绩和高一年级期末数学考试成绩如下表:
学生编号
入学成绩
高一期末成绩
计算入学成绩与高一期末成绩的相关系数;
【答案】(1)因为,,
,,
.
因此求得相关系数为.
结果说明这两组数据的相关程度是比较高的。
类型三、求线性回归方程
例3. 以下是某地搜集到的新房屋的销售价格和房屋的面积的数据:
(1)画出数据对应的散点图;
(2)求线性回归方程,并在散点图中加上回归直线;
【思路点拨】本题考查如何求回归直线的方程,可先把有关数据用散点图表示出来,若这些点大致分布在通过散点图中心的一条直线附近,说明这两个变量线性相关,从而可利用我们学过的最小二乘估计思想及计算公式求得线性回归直线方程。
【解析】(1)数据对应的散点图如图所示:
(2),,
设所求回归直线方程为,
则
故所求回归直线方程为
【总结升华】如果散点图中的点分布在一个直线状带形区域,可以选用线性回归模型来建模。
举一反三:
【变式1】下面是两个变量的一组数据。
x
1
2
3
4
5
6
7
8
y
1
4
9
16
25
36
49
64
求x与y两个变量之间的回归直线方程。
【答案】根据表中的数据,可以计算出有关数据,列成下表。
序号
1
1
1
1
1
2
2
4
4
8
3
3
9
9
27
4
4
16
16
64
5
5
25
25
125
6
6
36
36
216
7
7
49
49
343
8
8
64
64
512
∑
36
204
204
1296
所以有,,,。
所以,
。
于是回归直线方程为。
【高清课堂:回归分析的基本思想及其初步应用407591例题1】
【变式2】从某大学中随机选取8名女大学生,其身高和体重数据如下表所示:
编 号
1
2
3
4
5
6
7
8
身高/cm
165
165
157
170
175
165
155
170
体重/kg
48
57
50
54
64
61
43
59
求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学生的体重.
【答案】所给数据的散点图如图:
类型四、线性回归分析及应用
例4.近几年来,随着我国经济的发展,汽车已进入普通百姓家中.根据某汽车协会资料统计,国产某种型号家庭轿车的使用年限x(年)和所支出的维修费用y(千元),如下表:
使用年限/年
2
3
4
5
6
维修费用/千元
2.2
3.8
5.5
6.5
7.0
(1)求出相关系数r,并根据所求的r判断两个变量之间的线性相关关系的强弱;
(2)试求出回归直线方程,若某家庭购得此型号的汽车,请你为他们估计一下使用年限为10年时,维修费用是多少?
【思路点拨】 通过求出相关系数r,从而判断出是否具有相关关系;再求回归方程,从而进行回归预测.
【解析】 (1)根据公式,求得r≈0.9792>0.878,故两个变量之间有较强的线性相关关系.
(2)设所求的回归方程为.则
,,
即所求的回归直线方程为.
当x=10时,代入回归直线方程得
=12.38,所以传计使用年限为10年时,维修费用是1.238万元.
【总结升华】 求x与y的回归直线方程,应首先判断x与y是否具有线性相关关系,如果直接求x与y的回归直线方程,它就没有任何实际价值,也就不能准确反映变量x与y之间的变化规律.
举一反三:
【变式1】下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据。
x
3
4
5
6
y
2.5
3
4
4.5
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程;
(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤。试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?
(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)
【答案】
(1)由题设所给数据,可得散点图如图所示:
(2)计算得,,,
已知,
所以,由最小二乘法确定的回归方程的系数为
,
。
因此,所求的线性回归方程为。
(3)由(2)的回归方程及技改前生产100吨甲产品的生产能耗,
得降低的生产能耗为90-(0.7×100+0.35)=19.65(吨标准煤)。
【变式2】 测得某地10对父子身高(单位:英寸)如下:
父亲身高(x)
60
62
64
65
66
67
68
70
72
74
儿子身高(y)
63.6
65.2
66
65.5
66.9
67.1
67.4
68.3
70.1
70
如果x与y之间具有线性相关关系,求线性回归方程.如果父亲的身高为78英寸,试估计儿子的身高.
【答案】 解法一:先将两个变量的有关数据在表中计算出来,如下表所示:
序号
xi
yi
xi2
yi2
xiyi
1
60
63.6
3600
4044.96
3816
2
62
65.2
3844
4251.04
4042.4
3
64
66
4096
4356
4224
4
65
65.5
4225
4290.25
4257.5
5
66
66.9
4356
4475.61
4415.4
6
67
67.1
4489
4502.41
4495.7
7
68
67.4
4624
4542.76
4583.2
8
70
68.3
4900
4664.89
4781
9
72
70.1
5184
4914.01
5047.2
10
74
70
5476
4900
5180
∑
668
670.1
44796
44941.93
44842.4
由表中数据可计算,,,,,,代入公式.所以.因而所求得线性回归方程为:.当x=78时,.所以当父亲的身高为78英寸时,估计儿子的身高约为72.2英寸.
【变式3】 已知某地每单位面积菜地年平均使用氮肥量x(kg)与每单位面积蔬菜年平均产量y(t)之间的关系有如下数据:
年份
1985
1986
1987
1988
1989
1990
1991
1992
x/kg
70
74
80
78
85
92
90
95
y/t
5.1
6.0
6.8
7.8
9.0
10.2
10.0
12.0
年份
1993
1994
1995
1996
1997
1998
1999
x/kg
92
108
115
123
130
138
145
y/t
11.5
11.0
11.8
12.2
12.5
12.8
13.0
(1)求x与y之间的相关系数,并检验是否线性相关;
(2)若线性相关,求蔬菜产量y与使用氮肥量x之间的回归直线方程,并估计每单位面积施肥150 kg时,每单位面积蔬菜的年平均产量.
【答案】(1)使用样本相关系数计算公式来完成.(2)先作统计假设,由小概率0.05与n-2在附表中查得相关系数临界值r0.05,若r>0.05则线性相关,否则不线性相关.
列出下表,并用科学计算器进行相关计算:
i
1
2
3
4
5
6
7
8
xi
70
74
80
78
85
92
90
95
yi
5.1
6.0
6.8
7.8
9.0
10.2
10.0
12.0
xiyi
357
444
544
608.4
765
938.4
900
1140
i
9
10
11
12
13
14
15
xi
92
108
115
123
130
138
145
yi
11.5
11.0
11.8
12.2
12.5
12.8
13.0
xiyi
1058
1188
1357
1500.6
1625
1766.4
1885
(1)
.
由小概率0.05与n-2=13在附表中查得r0.05=0.514,
∵|r|>r0.05,∴x与y线性相关.
∴回归直线方程为多=0093 7x+0646 3.
(2)∵,
.
∴回归直线方程为.
∴当每单位面积施肥150 kg时,每单位面积蔬菜的年平均产量为0.0937×150+0.6463=14.7013≈14.7(t).
类型五、 非线性回归的转化
例5. 在一化学反应过程中某化学物质的反应速度y g/min与一种催化剂的量x g有关,现收集了8组数据列于表中,试建立y与x之间的回归方程.
催化剂量x/g
15
18
21
24
27
30
33
36
化学物质反应速度y/(g/min)
6
8
30
27
70
205
65
350
【思路点拨】 两个变量不一定是线性关系,不能直接利用线性回归方程建立两个变量的关系,可以通过变换的方法将非线性关系转化为线性回归模型.
【解析】 根据收集的数据作散点图:
根据样本点分布情况,可选用两种曲线模型来拟合.
(1)可认为样本点集中在某二次曲线y=c1x2+c2的附近.令t=x2,则变换后样本点应该分布在直线,y=bt+a(b=c1,a=c2)的周围.
由题意得变换后的t与y的样本数据表如下:
t
225
324
441
576
729
900
1089
1296
y
6
8
30
27
70
205
65
350
作y与x的散点图.
由y与t的散点图可观察到样本数据点并不分布在一条直线的周围,因此不宜用线性回归方程来拟合,即不宜用二次曲线y=c1x2+c2来拟合y与x之间的关系.
(2)根据x与y的散点图也可以认为样本点集中在某一条指数型函数曲线的周围.
令,则,
即变换后样本点应该分布在直线z=bx+a(a=lnc1,b=c2)的周围,
由y与x数据表可得z与x的数据表
x
15
18
21
24
27
30
33
36
z
1.792
2.079
3.401
3.296
4.248
5.323
4.174
5.858
作出z与x的散点图.
由散点图可观察到大致在一条直线上,所以可用线性回归方程来拟合它.
由z与x的数据表,得到线性回归方程,=0.1812x-0.8485,
所以非线性回归方程为,
因此,该化学物质反应速度关于催化剂的量的非线性回归方程为.
【总结升华】 非线性回归问题有时并不给出经验公式,这时我们可以画出已知数据的散点图。把它与学过的各种函数图像作比较,挑选一种跟这些散点拟合得最好的函数,然后像本例这样,采用适当的变量置换,把问题化为线性回归分析问题,使之得到解决.
举一反三:
【变式1】某种图书每册的成本费y(元)与印刷册数x(千册)有关,经统计得到数据如下:
x
1
2
3
5
10
20
30
50
100
200
y
10.15
5.52
4.08
2.85
2.11
1.62
1.41
1.30
1.21
1.15
检测每册书的成本费y与印刷册数的倒数之间是否具有线性相关关系?如有,求出y对x的回归方程.
【答案】首先作变量置换,题目所给数据变成如下表所示的数据.
ui
1
0.5
0.33
0.2
0.1
0.05
0.03
0.02
0.01
0.005
yi
10.15
5.52
4.08
2.85
2.11
1.62
1.41
1.30
1.2
1.15
可以求得.
由r≈0.999 8>0.75,因此,变量y与u之间具有较强的线性相关关系,并且,.
最后回代可得.
因此y与x的回归方程为.
【高清课堂:回归分析的基本思想及其初步应用407591例题3】
【变式2】一只红铃虫的产卵数和温度有关,现收集了7组观测数据列于下表中,试建立与之间的回归方程.
温度
21
23
25
27
29
32
35
产卵数个
7
11
21
24
66
115
325
【答案】观察右图中的散点图,发现样本点并没有分布在某个带状区域内,即两个变量不呈线性相关关系,所以不能直接用线性回归方程来建立两个变量之间的关系.
根据已有的函数知识,可以发现样本点分布在某一条指数函数曲线y=的周围(其中是待定的参数),故可用指数函数模型来拟合这两个变量.
在上式两边取对数,得,再令,则,而与间的关系如下:
X
21
23
25
27
29
32
35
z
1.946
2.398
3.045
3.178
4.190
4.745
5.784
观察与的散点图,可以发现变换后样本点分布在一条直线的附近,因此可以用线性回归方程来拟合.
利用计算器算得,与间的线性回归方程为,因此红铃虫的产卵数对温度的非线性回归方程为.