- 391.00 KB
- 2021-06-19 发布
第三章 统计案例
章末复习
学习目标 1.会求线性回归方程,并用回归直线进行预报.2.理解独立性检验的基本思想及实施步骤.
1.最小二乘法
对于一组数据(xi,yi),i=1,2,…,n,如果它们线性相关,则线性回归方程为=x+,其中==,=- .
2.2×2列联表
2×2列联表如表所示:
B
总计
A
a
b
a+b
c
d
c+d
总计
a+c
b+d
n
其中n=a+b+c+d为样本容量.
3.独立性检验
15
常用随机变量
K2=来检验两个变量是否有关系.
类型一 回归分析
例1 (2016·全国Ⅲ改编)如图是我国2008年到2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1~7分别对应年份2008~2014
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2019年我国生活垃圾无害化处理量.
附注:
参考数据:i=9.32,iyi=40.17, =0.55,≈2.646.
参考公式:相关系数r=,
回归方程=+t中斜率和截距的最小二乘估计公式分别为:=,=- .
考点 线性回归分析
题点 线性回归方程的应用
解 (1)由折线图中数据和附注中参考数据得
=4,(ti-)2=28, =0.55,
(ti-)(yi-)=iyi-i=40.17-4×9.32=2.89,
15
r≈≈0.99.
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.
(2)由=≈1.331及(1)得
==≈0.103,
=-≈1.331-0.103×4≈0.92.
所以y关于t的回归方程为=0.92+0.10t.
将2019年对应的t=12代入回归方程得
=0.92+0.10×12=2.12.
所以预测2019年我国生活垃圾无害化处理量约为2.12亿吨.
反思与感悟 解决回归分析问题的一般步骤
(1)画散点图.根据已知数据画出散点图.
(2)判断变量的相关性并求回归方程.通过观察散点图,直观感知两个变量是否具有相关关系;在此基础上,利用最小二乘法求回归系数,然后写出回归方程.
(3)回归分析.画残差图或计算R2,进行残差分析.
(4)实际应用.依据求得的回归方程解决实际问题.
跟踪训练1 经分析预测,美国通用汽车等10家大公司的销售总额xi(i=1,2,…,10,单位:百万美元)与利润yi(i=1,2,…,10,单位:百万美元)的近似线性关系为=0.026x+,经统计i=623 090,i=29 300.
(1)求;
(2)若通用汽车公司的销售总额x1=126 974(百万美元),残差1=-387,估计通用汽车的利润;
(3)福特公司的销售总额为96 933百万美元,利润为3 835,比较通用汽车公司与福特公司利润的解释变量对于预报变量变化的贡献率说明了什么?(以上答案精确到个位)
考点 残差分析与相关指数
题点 残差及相关指数的应用
15
解 (1)由i=623 090,i=29 300,
得样本点中心为(62 309,2 930),
所以=2 930-0.026×62 309≈1 310.
(2)由(1)知=0.026x+1 310,
当x1=126 974时,
1=0.026×126 974+1 310≈4 611,
所以y1=1+1=4 611+(-387)=4 224,
估计通用汽车公司的利润为4 224百万美元.
(3)由(1)(2)可得通用汽车公司利润的解释变量对于预报变量变化的贡献率为R,
则R=1-=1-≈0.911=91.1%.
设福特公司利润的解释变量对于预报变量变化的贡献率为R,
由=0.026x+1 310得
2=0.026×96 933+1 310≈3 830,
则R=1-=1-≈0.999 97
=99.997%.
由R<R知,用=0.026x+1 310作为解释变量与预报变量的关系,预报通用汽车公司的效果没有预报福特公司的效果好,或者说预报通用汽车公司的精确度低于预报福特公司的精确度.
类型二 独立性检验
例2 奥运会期间,为调查某高校学生是否愿意提供志愿者服务,用简单随机抽样方法从该校调查了60人,结果如下:
是否愿意提供
志愿者服务
性别
愿意
不愿意
男生
20
10
女生
10
20
15
(1)用分层抽样的方法在愿意提供志愿者服务的学生中抽取6人,其中男生抽取多少人?
(2)你能否在犯错误的概率不超过0.01的前提下认为该校高中生是否愿意提供志愿者服务与性别有关?
下面的临界值表供参考:
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
独立性检验统计量K2=,其中n=a+b+c+d.
考点 独立性检验思想的应用
题点 分类变量与统计、概率的综合性问题
解 (1)由题意,男生抽取6×=4(人).
(2)K2=≈6.667,由于6.667>6.635,所以能在犯错误的概率不超过0.01的前提下认为该校高中生是否愿意提供志愿者服务与性别有关.
反思与感悟 独立性检验问题的求解策略
(1)等高条形图法:依据题目信息画出等高条形图,依据频率差异来粗略地判断两个变量的相关性.
(2)通过公式K2=
先计算观测值k,再与临界值表作比较,最后得出结论.
跟踪训练2 某学生对其亲属30人的饮食习惯进行了一次调查,并用茎叶图表示30人的饮食指数,如图所示.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主).
(1)根据茎叶图,帮助这位同学说明其亲属30人的饮食习惯;
(2)根据以上数据完成下列2×2列联表;
主食蔬菜
主食肉类
合计
15
50岁以下
50岁以上
总计
(3)在犯错误的概率不超过0.01的前提下,是否能认为“其亲属的饮食习惯与年龄有关”?
考点 独立性检验思想的应用
题点 独立性检验在分类变量中的应用
解 (1)30位亲属中50岁以上的人多以食蔬菜为主,50岁以下的人多以食肉类为主.
(2)2×2列联表如表所示:
主食蔬菜
主食肉类
合计
50岁以下
4
8
12
50岁以上
16
2
18
总计
20
10
30
(3)K2==10>6.635,
故在犯错误的概率不超过0.01的前提下认为“其亲属的饮食习惯与年龄有关”.
1.甲、乙、丙、丁四位同学各自对A,B两变量进行线性相关检验,并用回归分析方法分别求得相关系数r如下表:
甲
乙
丙
丁
r
0.82
0.78
0.69
0.85
则这四位同学的试验结果能体现出A,B两变量有更强的线性相关性的是( )
A.甲 B.乙
C.丙 D.丁
考点 线性相关系数
题点 线性相关系数的应用
答案 D
解析 由相关系数的意义可知,相关系数的绝对值越接近于1,相关性越强,结合题意可知丁的线性相关性更强.故选D.
15
2.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:
作文成绩优秀
作文成绩一般
总计
课外阅读量较大
22
10
32
课外阅读量一般
8
20
28
总计
30
30
60
由以上数据,计算得到K2的观测值k≈9.643,根据临界值表,以下说法正确的是( )
A.没有充足的理由认为课外阅读量大与作文成绩优秀有关
B.有0.5%的把握认为课外阅读量大与作文成绩优秀有关
C.有99.9%的把握认为课外阅读量大与作文成绩优秀有关
D.有99.5%的把握认为课外阅读量大与作文成绩优秀有关
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 D
解析 根据临界值表,10.828>9.643>7.879,在犯错误的概率不超过0.005的前提下,认为课外阅读量大与作文成绩优秀有关,即有99.5%的把握认为课外阅读量大与作文成绩优秀有关.
3.某化妆品公司为了增加其商品的销售利润,调查了该商品投入的广告费用x与销售利润y的统计数据如下表:
广告费用x(万元)
2
3
5
6
销售利润y(万元)
5
7
9
11
由表中数据,得线性回归方程l:=x+,则下列结论正确的是( )
A.<0 B.<0
C.直线l过点(4,8) D.直线l过点(2,5)
考点 线性回归方程
题点 样本点中心的应用
答案 C
解析 因为=1.4>0,=-=8-1.4×4=2.4>0,所以排除A,B;因为=1.4x+2.4,所以1.4×2+2.4=5.2≠5,所以点(2,5)不在直线l上,所以排除D;因为=4,=8,所以回归直线l过样本点的中心(4,8),故选C.
15
4.在西非肆虐的“埃博拉病毒”的传播速度很快,这已经成为全球性的威胁.为了考察某种埃博拉病毒疫苗的效果,现随机抽取100只小鼠进行试验,得到如下列联表:
感染
未感染
总计
服用
10
40
50
未服用
20
30
50
总计
30
70
100
附表:
P(K2≥k0)
0.10
0.05
0.025
k0
2.706
3.841
5.024
参照附表,在犯错误的概率不超过________(填百分比)的前提下,认为“小鼠是否被感染与服用疫苗有关”.
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 5%
解析 K2的观测值k=≈4.762>3.841,所以在犯错误的概率不超过5%的前提下,认为“小鼠是否被感染与服用疫苗有关”.
5.对于线性回归方程=x+,当x=3时,对应的y的估计值是17,当x=8时,对应的y的估计值是22,那么,该线性回归方程是________,根据线性回归方程判断当x=________时,y的估计值是38.
考点 线性回归分析
题点 线性回归方程的应用
答案 =x+14 24
解析 首先把两组值代入线性回归方程,得
解得
所以线性回归方程是=x+14.
令x+14=38,可得x=24,即当x=24时,y的估计值是38.
1.建立回归模型的基本步骤:
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.
15
(2)画出散点图,观察它们之间的关系.
(3)由经验确定回归方程的类型.
(4)按照一定的规则估计回归方程中的参数.
(5)得出结果后分析残差图是否有异常.
2.独立性检验是利用随机变量K2来判断两个分类变量间是否存在相关关系的方法,常用的直观方法为等高条形图,等高条形图由于是等高的,因此它能直观地反映两个分类变量之间的差异的大小,而利用假设的思想方法,计算出某一个随机变量K2的值来判断更精确些.
一、选择题
1.有人收集了春节期间平均气温x与某取暖商品销售额y的有关数据如表:
平均气温(℃)
-2
-3
-5
-6
销售额(万元)
20
23
27
30
则该商品销售额与平均气温有( )
A.确定性关系 B.正相关关系
C.负相关关系 D.函数关系
考点 回归分析
题点 回归分析的概念和意义
答案 C
解析 根据春节期间平均气温x与某取暖商品销售额y的有关数据知,y随x的减小而增大,是负相关关系,故选C.
2.如果K2的观测值为8.654,可以认为“x与y无关”的可信度为( )
A.99.5% B.0.5%
C.99% D.1%
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 B
解析 ∵8.654>7.879,∴x与y无关的可信度为0.5%.
3.下面的等高条形图可以说明的问题是( )
15
A.“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响是绝对不同的
B.“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响没有什么不同
C.此等高条形图看不出两种手术有什么不同的地方
D.“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响在某种程度上是不同的,但是没有100%的把握
考点 定性分析的两类方法
题点 利用图形定性分析
答案 D
解析 由等高条形图可知选项D正确.
4.为了了解疾病A是否与性别有关,在某医院随机地对入院的50人进行了问卷调查,得到了如下的列联表:
患疾病A
不患疾病A
总计
男
20
5
25
女
10
15
25
总计
30
20
50
则认为疾病A与性别有关的把握约为( )
A.95% B.99%
C.99.5% D.99.9%
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 C
解析 由公式得K2=≈8.333>7.879,故有(1-0.005)×100%=99.5%的把握认为疾病A与性别有关.
5.某考察团对全国10大城市进行职工人均工资水平x(单位:千元)与居民人均消费水平y(单位:千元)统计调查,y与x具有线性相关关系,回归方程为=0.66x+1.562.若某城市居民人均消费水平为7.675千元,估计该城市人均消费额占人均工资收入的百分比约为( )
15
A.83% B.72%
C.67% D.66%
考点 线性相关系数
题点 线性相关系数的应用
答案 A
解析 将y=7.675代入回归方程,可计算得x≈9.26,所以该城市人均消费额占人均工资收入的百分比约为7.675÷9.26≈0.83,即约为83%.
6.考察棉花种子经过处理与生病之间的关系,得到下表中的数据:
种子处理
种子未处理
总计
得病
32
101
133
不得病
61
213
274
总计
93
314
407
根据以上数据可得出( )
A.种子是否经过处理与是否生病有关
B.种子是否经过处理与是否生病无关
C.种子是否经过处理决定是否生病
D.有90%的把握认为种子经过处理与生病有关
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 B
解析 k=≈0.164<0.455,
即没有充足的理由认为种子是否经过处理跟生病有关.
7.为预测某种产品的回收率y,需要研究它和原料有效成分含量x之间的相关关系,现取了8组观察值.计算知i=52,i=228,=478,iyi=1 849,则y关于x的回归方程是( )
A.=11.47+2.62x
B.=-11.47+2.62x
C.=2.62+11.47x
D.=11.47-2.62x
15
考点 线性回归分析
题点 线性回归方程的应用
答案 A
解析 由=,=- ,
直接计算得≈2.62,≈11.47,
所以线性回归方程为=2.62x+11.47.
8.若对于变量y与x的10组统计数据的回归模型中,相关指数R2=0.95,又知残差平方和为120.53,那么(yi-)2的值为( )
A.241.06 B.2 410.6
C.253.08 D.2 530.8
考点 残差分析与相关指数
题点 残差及相关指数的应用
答案 B
解析 设总偏差平方和为x,根据公式R2=1-,有0.95=1-,
∴x==2 410.6,故选B.
二、填空题
9.在研究气温和热茶销售杯数的关系时,若求得相关指数R2≈0.85,则表明气温解释了________的热茶销售杯数变化,而随机误差贡献了剩余的________,所以气温对热茶销售杯数的效应比随机误差的效应大得多.
考点 残差分析与相关指数
题点 残差及相关指数的应用
答案 85% 15%
解析 由相关指数R2的意义可知,R2≈0.85表明气温解释了85%,而随机误差贡献了剩余的15%.
10.为了规定工时定额,需要确定加工零件所花费的时间,为此进行5次试验,得到5组数据(x1,y1),(x2,y2),(x3,y3),(x4,y4),(x5,y5).根据收集到的数据可知x1+x2+x3+
15
x4+x5=150,由最小二乘法求得线性回归方程为=0.67x+54.9,则y1+y2+y3+y4+y5的值为______.
考点 线性回归方程
题点 样本点中心的应用
答案 375
解析 由题意,得=(x1+x2+x3+x4+x5)=30,且回归直线=0.67x+54.9恒过点(,),则=0.67×30+54.9=75,所以y1+y2+y3+y4+y5=5=375.
11.在研究性别与吃零食这两个分类变量是否有关系时,下列说法中正确的是________.
①若K2的观测值k=6.635,则我们在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系,那么在100个吃零食的人中必有99人是女性;
②由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,如果某人吃零食,那么此人是女性的可能性为99%;
③由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,是指每进行100次这样的推断,平均有1次推断错误.
考点 独立性检验及其基本思想
题点 独立性检验的思想
答案 ③
解析 K2的观测值是支持确定有多大把握认为“两个分类变量吃零食与性别有关系”的随机变量值,所以由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,是指每进行100次这样的推断,平均有1次推断错误,故填③.
三、解答题
12.如表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.
x
3
4
5
6
y
2.5
3
4
4.5
(1)请画出如表数据的散点图;
(2)请根据如表提供的数据,用最小二乘法求出y关于x的线性回归方程=x+;
(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?
考点 线性回归分析
题点 线性回归方程的应用
15
解 (1)由题设所给数据,可得散点图如图.
(2)由数据,计算得:=86,
==4.5,
==3.5,
iyi=66.5,
所以,由最小二乘法确定的回归方程的系数为
=
==0.7,
=-=3.5-0.7×4.5=0.35,
因此,所求的线性回归方程为=0.7x+0.35.
(3)由(2)中的线性回归方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为90-(0.7×100+0.35)=19.65(吨标准煤).
四、探究与拓展
13.对某台机器购置后的运营年限x(x=1,2,3,…)与当年利润y的统计分析知具备线性相关关系,线性回归方程为=10.47-1.3x,估计该台机器使用________年最合算.
考点 线性回归分析
题点 线性回归方程的应用
答案 8
解析 只要预计利润不为负数,使用该机器就算合算,即≥0,所以10.47-1.3x≥0,解得x≤8.05,所以该台机器使用8年最合算.
14.某校高一年级理科有8个班,在一次数学考试中成绩情况分析如下:
班级
1
2
3
4
5
6
7
8
15
大于145分人数
6
6
7
3
5
3
3
7
不大于145分人数
39
39
38
42
40
42
42
38
附:xiyi=171,x=204.
(1)求145分以上成绩y对班级序号x的线性回归方程;(精确到0.000 1)
(2)能否在犯错误的概率不超过0.01的前提下认为7班与8班的成绩是否优秀(大于145分)与班级有关系.
考点 独立性检验思想的应用
题点 独立性检验与线性回归方程、均值的综合应用
解 (1)=4.5,=5,xiyi=171,x=204,
==
=-≈-0.214 3,
=-=5-(-0.214 3)×4.5≈5.964 4,
∴线性回归方程为=-0.214 3x+5.964 4.
(2)K2==1.8,
∵1.8<6.635,∴不能在犯错误的概率不超过0.01的前提下认为7班与8班的成绩是否优秀(大于145分)与班级有关系.
15
相关文档
- 河北省邢台市高中物理第二章恒定电2021-06-19 16:28:373页
- 2019-2020学年高中数学课时作业5三2021-06-19 16:28:366页
- 2020版高中历史 第5章 中国著名的2021-06-19 16:26:0611页
- 2020高中历史 第5单元15 交通和通2021-06-19 16:25:546页
- 新教材高中语文第三单元课时优案112021-06-19 16:23:106页
- 2020版高中数学 第一章 不等式和绝2021-06-19 16:22:356页
- 高中化学必修1人教版课时练习及章2021-06-19 16:21:287页
- 2020高中物理 第2章 第4节 串联电2021-06-19 16:21:167页
- 2020版高中物理 第3章 电能的输送2021-06-19 16:20:145页
- 2019-2020学年新教材高中语文第六2021-06-19 16:17:5777页