- 554.00 KB
- 2021-04-19 发布
近年来在高考中对相关关系及线性回归方程的考查经常出现,主要考查学生数据处理能力,运算能力,阅读能力及概率与统计思想,题目难度为中等。为了便于学习和掌握此类问题的求解方法,下面结合高考题进行了以下归纳:
类型一 :相关性与线性回归方程 类型二 :独立性检验
【基础知识整合】
第一部分:变量间的相关性
1.两个变量的线性相关
(1)正相关;在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,
我们将它称为正相关.
(2)负相关;在散点图中,点散布在从左上角到右下角的区域,对于两个变量的这种相关关系,
我们将它称为负相关.
(3)线性相关;如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关
系,该直线叫做回归直线.
2.回归方程:
(1) 最小二乘法;使得样本数据的点到回归直线的距离的平方的和最小的方法叫最小二乘法.
(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(xn,yn).
其回归方程为=x+,则
其中(,)称为样本点的中心.
3.残差分析; (1)残差;对于样本点(x1,y1),(x2,y2),…,(xn,yn),它们的随机误差为ei=yi-bxi-a,i=1,2,…,n,其估计值为i=yi-i=yi-xi-,i=1,2,…,n.i称为相应于点(xi,yi)的残差.
(2)利用相关指数R2=1-刻画回归效果时,R2越大,意味着残差平方和越小,模型的拟合效果越好.
第二部分:独立性检验
.独立性检验(1) 2×2列联表;假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},
其样本频数列联表(2×2列联表)为
Y
X
y1
y2
合计
x1
a
b
a+b
x2
c
d
c+d
合计
a+c
b+d
a+b+c+d
(2) K2统计量;K2=;(其中n=a+b+c+d为样本容量).
名师点睛:(1)回归直线与样本点的中心(,),回归直线=x+必过样本点的中心(,).
(2)相关系数与线性相关性:①相关系数的计算公式:
②当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.
③当|r|∈0.75,1]时,表明两个变量相关性很强;当|r|∈0.30,0.75)时,表明两个变量相关性一般;
当|r|∈0,0.25]时,表明两个变量相关性较弱.
(3)回归分析是处理变量相关关系的一种数学方法.主要解决:
①确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;
②根据一组观察值,预测变量的取值及判断变量取值的变化趋势;③求出线性回归方程.
(4)根据K2的值可以判断两个分类变量有关的可信程度.
类型一 :相关性与线性回归方程
【典例1】【2015高考新课标1(文)3】 根据下面给出的2004年至2013年我国二氧化碳年排放量(单位:万吨)柱形图,以下结论中不正确的是( )
A.逐年比较,2008年减少二氧化碳排放量的效果最显著
B.2007年我国治理二氧化碳排放显现成效
C.2006年以来我国二氧化碳年排放量呈减少趋势
D.2006年以来我国二氧化碳年排放量与年份正相关
【答案】 D
考点;本题主要考查统计知识及对学生柱形图的理解
【思路点拨】本题把统计知识与时下的热点环保问题巧妙地结合在一起,该题背景比较新颖,设问比较灵活,是一道考查考生能力的好题.解答此题的关键是学生能从图中读出有用的信息,再根据得到的信息正确作出判断.
【典例2】【2016高考新课标Ⅲ文数(文)19】下图是我国2008年至2014年生活垃圾无害化处理量
(单位:亿吨)的折线图
(I)由折线图看出,可用线性回归模型拟合与的关系,请用相关系数加以说明;
(II)建立关于的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
附注: 参考数据:,,,≈2.646.
参考公式:相关系数
回归方程 中斜率和截距的最小二乘估计公式分别为:
【答案】(Ⅰ)理由见解析;(Ⅱ)1.82亿吨.
考点:线性相关与线性回归方程的求法与应用.
【思路点拨】(1)判断两个变量是否线性相关及相关程度通常有两种方法:(1)利用散点图直观判断;(2)将相关数据代入相关系数公式求出,然后根据的大小进行判断.求线性回归
方程时在严格按照公式求解时,一定要注意计算的准确性.
【典例3】【2015高考新课标1(文)19】(某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z
(单位:千元)的影响,对近8年的宣传费和年销售量数据作了初步处理,得到下面的散点图及一些统计量的值.
46.6
56.3
6.8
289.8
1.6
1469
108.8
表中= , =
(I)根据散点图判断,与,哪一个适宜作为年销售量y关于年宣传费x的回归方程类型(给出判断即可,不必说明理由);
(II)根据(I)的判断结果及表中数据,建立y关于x的回归方程;
(III)已知这种产品的年利润z与x,y的关系为 ,根据(II)的结果回答下列问题:
(i)当年宣传费时,年销售量及年利润的预报值时多少?
(ii)当年宣传费为何值时,年利润的预报值最大?
附:对于一组数据,,……,,其回归线的斜率和截距的最小二乘
估计分别为:,
【答案】(Ⅰ)适合作为年销售关于年宣传费用的回归方程类型
(Ⅱ)(Ⅲ)46.24
考点:非线性拟合;线性回归方程求法;利用回归方程进行预报预测;应用意识
【思路点拨】本题考查了非线性拟合及非线性回归方程的求解与应用,是源于课本的试题类型,解答非线性拟合问题,先作出散点图,再根据散点图选择合适的函数类型,设出回归方程,利用换元法将非线性回归方程化为线性回归方程,求出样本数据换元后的值,然后根据线性回归方程的计算方法计算变换后的线性回归方程系数,即可求出非线性回归方程,再利用回归方程进行预报预测,注意计算要细心,避免计算错误.
【变式练习】
1.【2015高考北京文】高三年级位学生参加期末考试,某班位学生的语文成绩,数学成绩与总成绩在全年级中的排名情况如下图所示,甲、乙、丙为该班三位学生.
从这次考试成绩看,①在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是 ;
②在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是 .
【答案】乙;数学
考点;散点图.
2.【2015高考湖北文4】已知变量和满足关系,变量与正相关. 下列结论中正确的是( )
A.与负相关,与负相关 B.与正相关,与正相关
C.与正相关,与负相关 D.与负相关,与正相关
【答案】.
考点;本题考查正相关、负相关,涉及线性回归方程的内容.
3.【2012全国卷高考2】在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0 C. D.1
【答案】 D
【解析】 样本点都在直线上时,其数据的估计值与真实值是相等的,即yi=i,
代入相关系数公式r==1.
考点;相关系数的计算
4.【2014·全国卷Ⅱ19】某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据如下表:
年 份
2007
2008
2009
2010
2011
2012
2013
年份代号t
1
2
3
4
5
6
7
人均纯收入y
2.9
3.3
3.6
4.4
4.8
5.2
5.9
(1)求y关于t的线性回归方程;
(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.
附:回归直线的斜率和截距的最小二乘法估计公式分别为:
.=,=-.
【答案】(Ⅰ)见解析;(Ⅱ)6.8千元
考点:线性回归方程的算法及运用
【解题技巧与方法总结】
1.两变量相关关系的判断方法
(1)利用散点图判断,利用散点图可以直观地判断出两变量是正相关,还是负相关,
以及是否具有线性相关关系.
(2)利用相关系数r判断,当|r|越趋近于1时,两变量的线性相关性越强.
2.线性回归分析问题的类型及解题方法
(1)求线性回归方程的步骤: ①利用公式,先把数据制成表,
②从表中计算出、,、的值;
③计算回归系数; ④写出线性回归方程.
(2)待定系数法:利用回归直线过样本点中心求系数.
3.利用回归方程进行预测;把回归直线方程看作一次函数,求函数值.
4.利用回归直线判断正、负相关:决定正相关还是负相关的是系数b.
类型二 :独立性检验
【典例1】【2014安徽高考(文)17】某高校共有15000人,其中男生10500人,女生4500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时)
(Ⅰ)应收集多少位女生样本数据?
(Ⅱ)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据分组区间为:.估计该校学生每周平均体育运动时间超过4个小时的概率.
(Ⅲ)在样本数据中,有60位女生的每周平均体育运动时间超过4个小时.请完成每周平均体育运动时间与性别的列联表,并判断是否有的把握认为“该校学生的每周平均体育运动时间与性别有关”.
附:
0.10
0.05
0.010
0.005
2.706
3.841
6.635
7.879
【答案】(I)90;(2)0.75;(3)有的把握认为“该校学生的每周平均体育运动时间与性别有关”.
每周平均体育运动时间与性别列联表
男生
女生
总计
每周平均体育运动时间不超过4小时
45
30
75
每周平均体育运动时间超过4小时
165
60
225
总计
210
90
300
结合列联表可算得.
有的把握认为“该校学生的每周平均体育运动时间与性别有关”.
考点:1.频率分布直方图的应用;2.列联表的画法及的求解.
【思路点拨】由频率分布直方图进行相关计算时,需掌握下列关系式:(1)×组距=频率.(2)=频率,此关系式的变形为=样本容量,样本容量×频率=频数.在2×2列联表中,如果两个变量没有关系,则应满足ad-bc≈0.|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.
【典例2】【2014辽宁高考(文)18】某大学餐饮中心为了了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:
(Ⅰ)根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”;
(Ⅱ)已知在被调查的北方学生中有5名数学系的学生,其中2名喜欢甜品,现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.
【答案】(Ⅰ)有的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”; (Ⅱ)
考点; 1、独立性检验;2、古典概型.
【思路点拨】本题考查独立性检验、古典概型等,在正确理解题意的情况下,能正确应用给定公式加以计算是关键.本题是一道应用题,也是一道能力题,属于中等题,较好地考查了概率统计等基础知识,同时考查考生的计算能力及应用数学知识,解决实际问题的能力.
【变式训练】
1.【2014江西高考文】某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )
表1
成绩
性别
不及格
及格
总计
男
6
14
20
女
10
22
32
总计
16
36
52
表2
视力
性别
好
差
总计
男
4
16
20
女
12
20
32
总计
16
36
52
表3
智商
偏高
正常
总计
性别
男
8
12
20
女
8
24
32
总计
16
36
52
表4
阅读量
性别
丰富
不丰富
总计
男
14
6
20
女
2
30
32
总计
16
36
52
A.成绩 B.视力 C.智商 D.阅读量
【答案】 D
考点;1、独立性检验;
2.【2013福建高考文】某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:50,60),60,70),70,80),80,90),90,100]分别加以统计,得到如图5所示的频率分布直方图.
25周岁以上组
25周岁以下组
图5
(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;
(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?
附:
P(K2≥k)
0.100
0.050
0.010
0.001
k
2.706
3.841
6.635
10.828
【答案】(1)P=. (2)没有90%的把握认为“生产能手与工人所在的年龄组有关
60×0.25=15(人),“25周岁以下组”中的生产能手有40×0.375=15(人),据此可得2×2列联表如下:
生产能手
非生产能手
合计
25 周岁以上组
15
45
60
25周岁以下组
15
25
40
合计
30
70
100
所以得K2===≈1.79.
因为1.79<2.706,所以没有90%的把握认为“生产能手与工人所在的年龄组有关”.
考点;1、古典概型 2、独立性检验;
3.【2016哈尔滨模拟】某班主任对全班50名学生的学习积极性和对待班级工作的态度进行了调查,统计数据如下表所示:
积极参加班级工作
不太主动参加班级工作
合计
学习积极性高
18
7
25
学习积极性一般
6
19
25
合计
24
26
50
(1)如果随机抽查这个班的一名学生,那么抽到积极参加班级工作的学生的概率是多少?抽到不太主动参加班级工作且学习积极性一般的学生的概率是多少?
(2)试运用独立性检验的思想方法分析:学生的学习积极性与对待班级工作的态度是否有关系?
并说明理由.
(参考下表)
P(K2≥k)
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
【答案】(1)P=. (2)没有90%的把握认为“生产能手与工人所在的年龄组有关
由11.538>10.828,所以在允许犯错误的概率不超过0.1%的条件下有把握认为学生的
学习积极性与对待班级工作的态度有关系.
考点;1、简单随机抽样、2、古典概型 3、独立性检验;
【解题技巧与方法总结】
1.比较几个分类变量有关联的可能性大小的方法
(1)通过计算K2的大小判断:K2越大,两变量有关联的可能性越大.
(2)通过计算|ad-bc|的大小判断:|ad-bc|越大,两变量有关联的可能性越大.
2.独立性检验的一般步骤
(1)根据样本数据制成2×2列联表.
(2)根据公式;K2=;(其中n=a+b+c+d为样本容量).
计算K2的观测值k.
(3)比较k与临界值的大小关系,作统计推断.