- 2.66 MB
- 2021-04-15 发布
第
1
讲 统计与统计案例
高考定位
1.
抽样方法、样本的数字特征、统计图表、回归分析与独立性检验主要以选择题、填空题形式命题
,难度较小;
2.
注重知识的交汇渗透
,
统计与概率
,
回归分析与概率是近年命题的热点
,
2015
年
,
2016
年和
2017
年在解答题中均有考查
.
真 题 感 悟
1.
(2017·
全国
Ⅰ
卷
)
为评估一种农作物的种植效果,选了
n
块地作试验田
.
这
n
块地的亩产量
(
单位:
kg)
分别为
x
1
,
x
2
,
…
,
x
n
,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是
(
)
A.
x
1
,
x
2
,
…
,
x
n
的平均数
B.
x
1
,
x
2
,
…
,
x
n
的标准差
C.
x
1
,
x
2
,
…
,
x
n
的最大值
D.
x
1
,
x
2
,
…
,
x
n
的中位数
解析
刻画评估这种农作物亩产量稳定程度的指标是标准差
.
答案
B
2.
(2016·
全国
Ⅲ
卷
)
某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图
.
图中
A
点表示十月的平均最高气温约为
15
℃
,
B
点表示四月的平均最低气温约为
5
℃
.
下面叙述不正确的是
(
)
A.
各月的平均最低气温都在
0
℃
以上
B.
七月的平均温差比一月的平均温差大
C.
三月和十一月的平均最高气温基本相同
D.
平均最高气温高于
20
℃
的月份有
5
个
解析
根据雷达图可知全年最低气温都在
0
℃
以上
,
故
A
正确;一月平均最高气温是
6
℃
左右
,
平均最低气温
2
℃
左右
,
七月平均最高气温
22
℃
左右
,
平均最低气温
13
℃
左右
,
所以七月的平均温差比一月的平均温差大
,
B
正确;三月和十一月的平均最高气温都是
10
℃,
三月和十一月的平均最高气温基本相同
,
C
正确;平均最高气温高于
20
℃
的有七月和八月
,
D
项不正确
.
答案
D
答案
C
4.
(2017·
全国
Ⅱ
卷
)
淡水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了
100
个网箱,测量各箱水产品的产量
(
单位:
kg)
,其频率分布直方图如下:
(1)
设两种养殖方法的箱产量相互独立,记
A
表示事件:旧养殖法的箱产量低于
50 kg
,新养殖法的箱产量不低于
50 kg
,估计
A
的概率;
(2)
填写下面列联表,并根据列联表判断是否有
99%
的把握认为箱产量与养殖方法有关:
箱产量
<50 kg
箱产量
≥
50 kg
旧养殖法
新养殖法
(3)
根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值
(
精确到
0.01).
附:
解
(1)
记
B
表示事件
“
旧养殖法的箱产量低于
50 kg
”
,
C
表示事件
“
新养殖法的箱产量不低于
50 kg
”
.
由题意知,
P
(
A
)
=
P
(
BC
)
=
P
(
B
)
P
(
C
).
旧养殖法的箱产量低于
50 kg
的频率为
(0.012
+
0.014
+
0.024
+
0.034
+
0.040)
×
5
=
0.62
,
故
P
(
B
)
的估计值为
0.62.
新养殖法的箱产量不低于
50 kg
的频率为
(0.068
+
0.046
+
0.010
+
0.008)
×
5
=
0.66
,
故
P
(
C
)
的估计值为
0.66.
因此,事件
A
的概率估计值为
0.62
×
0.66
=
0.409 2.
(2)
根据箱产量的频率分布直方图得列联表
箱产量
<50 kg
箱产量
≥
50 kg
旧养殖法
62
38
新养殖法
34
66
1.
抽样方法
抽样方法包括简单随机抽样、系统抽样、分层抽样,三种抽样方法都是等概率抽样,体现了抽样的公平性,但又各有其特点和适用范围
.
2.
统计中的四个数据特征
(1)
众数:在样本数据中,出现次数最多的那个数据
.
(2)
中位数:样本数据中,将数据按大小排列,位于最中间的数据
.
如果数据的个数为偶数,就取中间两个数据的平均数作为中位数
.
考
点
整
合
y
1
y
2
总计
x
1
a
b
a
+
b
x
2
c
d
c
+
d
总计
a
+
c
b
+
d
n
热点一 抽样方法
【例
1
】
(1)
(2015·
北京卷
)
某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有
320
人,则该样本中的老年教师人数为
(
)
类别
人数
老年教师
900
中年教师
1 800
青年教师
1 600
总计
4 300
A.90 B.100 C.180 D.300
(2)
(2017·
长沙雅礼中学质检
)
在一次马拉松比赛中,
35
名运动员的成绩
(
单位:分钟
)
的茎叶图如图所示
若将运动员按成绩由好到差编为
1
~
35
号,再用系统抽样方法从中抽取
7
人,则其中成绩在区间
[139
,
151]
上的运动员人数是
________.
答案
(1)C
(2)4
【训练
1
】
(1)
(2017·
郑州模拟
)
为规范学校办学,某省教育厅督察组对某所高中进行了抽样调查
.
抽到的班级一共有
52
名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容量为
4
的样本,已知
7
号、
33
号、
46
号同学在样本中,那么样本中还有一位同学的编号应是
(
)
A.13 B.19 C.20 D.51
(2)
(2017·
江苏卷
)
某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为
200
,
400
,
300
,
100
件,为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取
60
件进行检验,则应从丙种型号的产品中抽取
________
件
.
答案
(1)C
(2)18
热点二 用样本估计总体
命题角度
1
数字特征与茎叶图的应用
【例
2
-
1
】
(2017·
北京东城质检
)
某班男女生各
10
名同学最近一周平均每天的锻炼时间
(
单位:分钟
)
用茎叶图记录如下:
假设每名同学最近一周平均每天的锻炼时间是互相独立的
.
①
男生每天锻炼的时间差别小,女生每天锻炼的时间差别大;
②
从平均值分析,男生每天锻炼的时间比女生多;
③
男生平均每天锻炼时间的标准差大于女生平均每天锻炼时间的标准差;
④
从
10
个男生中任选一人,平均每天的锻炼时间超过
65
分钟的概率比同样条件下女生锻炼时间超过
65
分钟的概率大
.
其中符合茎叶图所给数据的结论是
(
)
A.
①②③
B.
②③④
C.
①②④
D.
①③④
答案
C
命题角度
2
用样本的频率分布估计总体分布
【例
2
-
2
】
(2016·
四川卷
)
我国是世界上严重缺水的国家,某市政府为了鼓励居民节约用水,计划调整居民生活用水收费方案,拟确定一个合理的月用水量标准
x
(
吨
)
,一位居民的月用水量不超过
x
的部分按平价收费,超出
x
的部分按议价收费
.
为了了解居民用水情况,通过抽样,获得了某年
100
位居民每人的月均用水量
(
单位:吨
)
,将数据按照
[0
,
0.5)
,
[0.5
,
1)
,
…
,
[4
,
4.5)
分成
9
组,制成了如图所示的频率分布直方图
.
(1)
求直方图中
a
的值;
(2)
设该市有
30
万居民,估计全市居民中月均用水量不低于
3
吨的人数,并说明理由;
(3)
若该市政府希望使
85%
的居民每月的用水量不超过标准
x
(
吨
)
,估计
x
的值,并说明理由
.
解
(1)
由频率分布直方图知,月均用水量在
[0
,
0.5)
中的频率为
0.08
×
0.5
=
0.04.
同理,在
[0.5
,
1)
,
[1.5
,
2)
,
[2
,
2.5)
,
[3
,
3.5)
,
[3.5
,
4)
,
[4
,
4.5)
中的频率分别为
0.08
,
0.20
,
0.26
,
0.06
,
0.04
,
0.02.
由
0.04
+
0.08
+
0.5
×
a
+
0.20
+
0.26
+
0.5
×
a
+
0.06
+
0.04
+
0.02
=
1
,解得
a
=
0.30.
(2)
由
(1)
可知,
100
位居民每人月均用水量不低于
3
吨的频率为
0.06
+
0.04
+
0.02
=
0.12.
由以上样本的频率,可以估计全市
30
万居民中月均用水量不低于
3
吨的人数为
300 000
×
0.12
=
36 000.
(3)
因为前
6
组的频率之和为
0.04
+
0.08
+
0.15
+
0.20
+
0.26
+
0.15
=
0.88>0.85
,
而前
5
组的频率之和为
0.04
+
0.08
+
0.15
+
0.20
+
0.26
=
0.73<0.85.
所以
2.5
≤
x
<3.
由
0.3
×
(
x
-
2.5)
=
0.85
-
0.73
,解得
x
=
2.9.
所以,估计月用水量标准为
2.9
吨时,
85%
的居民每月的用水量不超过标准
.
探究提高
1.
平均数与方差都是重要的数字特征
,
是对数据的一种简明描述
,
它们所反映的情况有着重要的实际意义
.
平均数、中位数、众数描述数据的集中趋势
,
方差和标准差描述数据的波动大小
.
2
.
在本例
2
-
2
中
,
抓住频率分布直方图各小长方形的面积之和为
1
,
这是求解的关键;本题易混淆频率分布条形图和频率分布直方图
,
误把频率分布直方图纵轴的几何意义当成频率
,
导致样本数据的频率求错
.
【训练
2
】
(2017·
北京卷
)
某大学艺术专业
400
名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了
100
名学生,记录他们的分数,将数据分成
7
组:
[20
,
30)
,
[30
,
40)
,
…
[80
,
90]
,并整理得到如下频率分布直方图:
(1)
从总体的
400
名学生中随机抽取一人,估计其分数小于
70
的概率;
(2)
已知样本中分数小于
40
的学生有
5
人,试估计总体中分数在区间
[40
,
50)
内的人数;
(3)
已知样本中有一半男生的分数不小于
70
,且样本中分数不小于
70
的男女生人数相等
.
试估计总体中男生和女生人数的比例
.
解
(1)
根据频率分布直方图可知,样本中分数不小于
70
的频率为
(0.02
+
0.04)
×
10
=
0.6
,
所以样本中分数小于
70
的频率为
1
-
0.6
=
0.4.
所以从总体的
400
名学生中随机抽取一人,其分数小于
70
的概率估计为
0.4.
热点三 回归分析与独立性检验
【例
3
】
(1)
某新闻媒体为了了解观众对央视《开门大吉》节目的喜爱与性别是否有关系,随机调查了观看该节目的观众
110
名,得到如下的列联表:
女
男
总计
喜爱
40
20
60
不喜爱
20
30
50
总计
60
50
110
试根据样本估计总体的思想,估计约有
________
的把握认为
“
喜爱该节目与否和性别有关
”.
参考附表:
P
(
K
2
≥
k
0
)
0.050
0.010
0.001
k
0
3.841
6.635
10.828
(2)
(2016·
全国
Ⅲ
卷
)
如图是我国
2008
年至
2014
年生活垃圾无害化处理量
(
单位:亿吨
)
的折线图
.
注:年份代码
1
~
7
分别对应年份
2008
~
2014.
①
由折线图看出,可用线性回归模型拟合
y
与
t
的关系,请用相关系数加以说明;
②
建立
y
关于
t
的回归方程
(
系数精确到
0.01)
,预测
2016
年我国生活垃圾无害化处理量
.
答案
99%
【训练
3
】
(1)
(2017·
贵阳调研
)
某医疗研究所为了检验某种血清能起到预防感冒的作用,把
500
名使用血清的人与另外
500
名未使用血清的人一年中的感冒记录作比较,利用
2
×
2
列联表计算得
K
2
的观测值
k
≈
3.918.
附表:
P
(
K
2
≥
k
0
)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
则作出
“
这种血清能起到预防感冒的作用
”
出错的可能性不超过
(
)
A.95% B.5% C.97.5% D.2.5%
(2)
(2017·
唐山一模
)
某市春节期间
7
家超市的广告费支出
x
i
(
万元
)
和销售额
y
i
(
万元
)
数据如下:
超市
A
B
C
D
E
F
G
广告费支出
x
i
1
2
4
6
11
13
19
销售额
y
i
19
32
40
44
52
53
54
(1)
解析
∵
k
≈
3.918>3.841
,
且
P
(
K
2
≥
k
0
=
3.841)
=
0.05
,
根据独立性检验思想
“
这种血清能起到预防感冒的作用
”
出错的可能性不超过
5%.
答案
B
1.
用样本估计总体是统计的基本思想
.
用样本频率分布来估计总体分布的重点是频率分布表和频率分布直方图的绘制及用样本频率分布估计总体分布;难点是频率分布表和频率分布直方图的理解及应用
.
2.(1)
众数、中位数及平均数都是描述一组数据集中趋势的量,平均数是最重要的量,与每个样本数据有关,这是中位数、众数所不具有的性质
.
(2)
标准差、方差描述了一组数据围绕平均数波动的大小
.
标准差、方差越大,数据的离散程度就越大
.
4.
回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义
.
根据回归方程进行预报,仅是一个预报值,而不是真实发生的值
.