- 708.00 KB
- 2021-04-13 发布
§11.5
抽样方法与总体分布的估计
高考理数
考点一 随机抽样
1.简单随机抽样
(1)定义:一般地,设一个总体含有
N
个个体,从中逐个①
不放回
地抽
取
n
个个体作为样本(
n
≤
N
),如果每次抽取时各个个体被抽到的机会都
相等,就把这种抽样方法叫做简单随机抽样.
(2)最常用的简单随机抽样方法有两种:随机数法和抽签法.
2.系统抽样
将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽
取②
一个
个体,得到所需要的样本,这种抽样方法叫做系统抽样.
知识清单
3.分层抽样
(1)定义:一般地,在抽样时,将总体③
分成互不交叉
的层,然后按照一
定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在
一起作为样本,这种抽样方法是一种分层抽样.
(2)应用范围:总体是由④
差异明显
的几个部分组成的.
考点二 用样本估计总体
1.频率分布表:把反映总体频率分布的表格称为频率分布表.
2.频率分布直方图:能够反映样本的频率分布规律的直方图.
3.频率分布折线图:将频率分布直方图中各相邻的矩形的上底边的中点
顺次连接起来,就得到频率分布折线图.
4.总体密度曲线:如果将样本容量取得足够大,分组的组距足够小,则相
应的频率折线图将趋于一条光滑曲线,即总体密度曲线.
5.茎叶图的画法步骤:第一步:将每个数据分为茎(高位)和叶(低位)两部
分;第二步:将最小茎与最大茎之间的数按大小次序排成一列;第三步:将
各个数据的叶依次写在其茎的右(左)侧.
6.样本的数字特征
(1)众数、中位数、平均数
(2)方差和标准差
方差和标准差反映了数据波动程度的大小.
方差:
s
2
=
[(
x
1
-
)
2
+(
x
2
-
)
2
+
…
+(
x
n
-
)
2
];
标准差:
s
=
.
数字特征
样本数据
频率分布直方图
众数
出现⑤
次数最多
的数据
取最高的小矩形底边中点的横坐标
中位数
将数据按大小依次排列,处在最中间位置的一
个数据(或最中间两个数据的平均数)
把频率分布直方图划分为左右两个面积相等的部分,分界线与
x
轴交点的横坐标
平均数
样本数据的算术平均数
每个小矩形的面积乘小矩形底边中点的横坐标之和
注意:方差和标准差描述了一组数据与平均数的离散程度,反映了一组
数据相对于平均数的波动情况,标准差和方差越大,说明这组数据的波
动性越大.
1.三种抽样方法的区别与联系
2.系统抽样的最基本特征是“等距性”,一般地,每组内所抽取的号
码依据第一组抽取的号码和组距唯一确定,每组抽取的号码依次构成一
抽样方法
方法
1
方法技巧
个以第一组抽取的号码
m
为首项
,
组距
d
为公差的等差数列
{
a
n
},
第
k
组抽
取的号码
a
k
=
m
+(
k
-1)
d
.
3.
分层抽样的关键是根据样本特征的差异进行分层
,
实质是等比例抽样
,
抽样比
=
=
.
例
1
(1)(2017
河北石家庄二中三模
,3)
某校为了解
1 000
名高一新生的身体状
况
,
用系统抽样法
(
按等距的规则
)
抽取
40
名同学进行检查
,
将学生从
1~
1 000
进行编号
,
现已知第
18
组抽取的号码为
443,
则第一组用简单随机抽
样抽取的号码为
(
C
)
A.16
B.17
C.18
D.19
(2)(2017山东淄博二模,6)为了调研雄安新区的空气质量状况,某课题组
对雄县、容城、安新3县的空气质量进行了调查,按地域特点在三县内
设置空气质量观测点,已知三县内观测点的个数分别为6,
y
,
z
,依次构成
等差数列,且6,
y
,
z
+6成等比数列,若用分层抽样的方法抽取12个观测点
的数据,则容城应抽取的数据个数为
(
C
)
A.8 B.6 C.4 D.2
解析
(1)∵
从
1 000
名学生中抽取一个容量为
40
的样本
,
∴
系统抽样的分段间隔为
=25,
设第一组随机抽取的号码为
x
,
则抽取的第
18
组的号码为
x
+17
×
25=443,∴
x
=18.
故选
C.
(2)∵
三县内观测点的个数分别为
6,
y
,
z
,
且依次构成等差数列
,
且
6,
y
,
z
+6
成等比数列
,∴
∴
y
=12,
z
=18,
若用分层抽样的方法抽取
12
个观测点的数据
,
则容城应抽取的数据个数为
12
×
=4,
故选
C.
用频率分布直方图解决相关问题时,应正确理解图中各个量的意义,识
图掌握信息是解决该类问题的关键.频率分布直方图有以下几个特点:
(1)纵轴表示频率/组距;(2)频率分布直方图中各小长方形高的比就是相
应各组的频率之比;(3)直方图中各小长方形的面积是相应各组的频率,
所有的小长方形的面积之和等于1,即频率之和为1.
频率分布直方图的应用
方法
2
例2 (2017四川遂宁射洪中学三诊,18)射洪县教育局从去年参加了计
算机职称考试,并且年龄在[25,55]岁的教师中随机抽取
n
人的成绩进行
了调查,得到如下统计表和各年龄段人数的频率分布直方图:
(1)补全频率分布直方图,并求
a
、
p
、
q
的值;
(2)若用以上数据来估计今年参考老师的过关情况,并将每组的频率视
作对应年龄阶段老师的过关概率,考试是否过关互不影响.现有三名教
师参加该次考试,年龄分别为41岁、47岁、53岁.记
ξ
为过关的人数,请利
用相关数据求
ξ
的分布列和数学期望.
解析
(1)
根据频率和为
1,
得年龄在
[30,35)
内的频率为
1-(0.04+0.04+0.03
+0.02+0.01)
×
5=0.3,∴
=0.06,
∴
补全的频率分布直方图如图所示
:
第一组的人数为
=200,
频率为
0.04
×
5=0.2,∴
n
=
=1 000.
第二组的频率为
0.3,∴
第二组的人数为
1 000
×
0.3=300,
∴
p
=
=0.65,
第四组共有
1 000
×
0.15=150
人
,∴
a
=150
×
0.4=60,
第五组共有
1 000
×
0.1=100
人
,∴
q
=30
÷
100=0.3.
综上
,
a
=60,
p
=0.65,
q
=0.3.
(2)
根据题意
,
年龄分别为
41
岁
,47
岁
,53
岁的教师过关的概率分别为
,
,
,
则
P
(
ξ
=0)=
×
×
=
,
P
(
ξ
=1)=
×
×
+2
×
×
×
=
=
,
P
(
ξ
=2)=2
×
×
×
+
×
×
=
,
P
(
ξ
=3)=
×
×
=
=
,
∴
ξ
的分布列为
数学期望
Eξ
=0
×
+1
×
+2
×
+3
×
=1.
1.平均数、中位数、众数与方差、标准差都是重要的数字特征,可对总
体进行一种简明的描述,它们所反映的情况有着重要的实际意义,平均
数、中位数、众数可描述总体的集中趋势,方差和标准差可描述波动大
小.
2.有关平均数、方差的一些结论:
(1)若数据
x
1
,
x
2
,
…
,
x
n
的平均数为
,那么
mx
1
+
a
,
mx
2
+
a
,
mx
3
+
a
,
…
,
mx
n
+
a
的平
均数是
m
+
a
.
(2)设数据
x
1
,
x
2
,
…
,
x
n
的方差为
s
2
,则
a.
s
2
=
[(
+
+
…
+
)-
n
];
b.数据
x
1
+
a
,
x
2
+
a
,
…
,
x
n
+
a
的方差也为
s
2
;
求样本的数字特征及用其估计总体的数字特征
方法
3
c.数据
ax
1
,
ax
2
,
…
,
ax
n
的方差为
a
2
s
2
.
例3 (2015广东,17,12分)某工厂36名工人的年龄数据如下表.
工人编号
年龄
工人编号
年龄
工人编号
年龄
工人编号
年龄
1
40
10
36
19
27
28
34
2
44
11
31
20
43
29
39
3
40
12
38
21
41
30
43
4
41
13
39
22
37
31
38
5
33
14
43
23
34
32
42
6
40
15
45
24
42
33
53
7
45
16
39
25
37
34
37
8
42
17
38
26
44
35
49
9
43
18
36
27
42
36
39
里用随机抽样法抽到的年龄数据为44,列出样本的年龄数据;
(2)计算(1)中样本的均值
和方差
s
2
;
(3)36名工人中年龄在
-
s
与
+
s
之间有多少人?所占的百分比是多少(精
确到0.01%)?
(1)用系统抽样法从36名工人中抽取容量为9的样本,且在第一分段
解析
(1)
由系统抽样
,
将
36
名工人分为
9
组
(4
人一组
),
每组抽取一名工
人
.
因为在第一分段里抽到的是年龄为
44
的工人
,
即编号为
2
的工人
,
故所抽
样本的年龄数据为
44,40,36,43,36,37,44,43,37.
(2)
均值
=
=40;
方差
s
2
=
×
[(44-40)
2
+(40-40)
2
+(36-40)
2
+(43-40)
2
+(36-40)
2
+(37-40)
2
+(44-
40)
2
+(43-40)
2
+(37-40)
2
]=
.
(3)
由
(2)
可知
s
=
.
由题意
,
年龄在
内的工人共有
23
人
,
所
占的百分比为
×
100%
≈
63.89%.