- 1.93 MB
- 2021-05-24 发布
第
七
节
统计与统计案例
考点梳理
考纲速览
命题解密
热点预测
1.
抽样方法
.
2.
频率分布直方图、茎叶图及数字特征
.
(1)
随机抽样
①
理解随机抽样的必要性和重要性
.
②
会用简单随机抽样方法从总体中抽取样本;了解分层抽样和系统抽样方法
.
(2)
用样本估计总体
①
了解分布的意义和作用,会列频率分布表,会画频率分布直方图、频率折线图、茎叶图,理解它们各自的特点
.
②
理解样本数据标准差的意义和作用,会计算数据标准差
.
③
能从样本数据中提取基本的数字特征
(
如平均数、标准差
)
,并给出合理的解释
.
④
会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想
.
⑤
会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题
.
主要考查随机抽样方法以及有关的计算、样本的频率分布中的有关计算、
样
预测高考对本部分内容的考查仍会以抽样中的分层抽样、系统抽
考点梳理
考纲速览
命题解密
热点预测
3.
变量间的相关关系及统计案例
.
(3)
变量间的相关关系
①
会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系
.
②
了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程
.
(4)
统计案例
了解下列一些常见的统计方法,并能应用这些方法解决一些实际问题
.
①
独立性检验
了解独立性检验
(
只要求
2
×
2
列联表
)
的基本思想、方法及其简单应用
.
②
回归分析
了解回归分析的基本思想、方法及其简单应用
.
本特征数的计算及以样本的分布估计总体的分布等问题
.
统计案例部分考查次数较少,主要考查线性回归问题及独立性检验的实际应用
.
样、频率分布直方图等为主干知识,而且在考查内容上会越来越全面
.
对回归分析的考查仍将是热点,复习时应引起足够的重视
.
知识点一
随机抽样与总体分布
1.
简单随机抽样
(1)
抽取方式:
_______________
;
(2)
每个个体被抽到的概率:
_____
;
(3)
常用方法:
______
、
_________
.
2.
系统抽样
将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取
_____
个体,得到所需要的样本,这种抽样的方法叫做系统抽样
.
逐个不放回抽取
相等
抽签法
随机数法
一个
3.
分层抽样
当已知总体由差异明显的几部分组成时,将总体分成几部分
(
各部分互不交叉
)
,然后按照
_________________
进行抽样,这种抽样方法叫做分层抽样,所分成的部分叫做层
.
各部分所占的比例
4.
统计图表的含义
(1)
频率分布表
①
含义:把反映
_____________
的表格称为频率分布表
.
②
频率分布表的画法步骤:
第一步:求
_____
,决定组数和组距,组距= ;
第二步:
_____
,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;
第三步:登记频数,计算频率,列出频率分布表
.
(2)
频率分布直方图:能够反映样本的
_____________
的直方图
.
总体频率分布
极差
频率分布规律
分组
(3)
频率分布折线图:将频率分布直方图中各相邻的矩形的
______
的中点顺次连接起来,就得到频率分布折线图
.
(4)
总体密度曲线:如果将样本容量取得足够大,分组的组距足够小,则相应的频率折线图将趋于一条光滑曲线,即总体密度曲线
.
(5)
茎叶图的画法步骤
第一步:将每个数据分为茎
(
高位
)
和叶
(
低位
)
两部分;
第二步:将最小茎与最大茎之间的数按大小次序排成一列;
第三步:将各个数据的叶依次写在其茎的右
(
左
)
侧
.
上底边
5.
样本的数字特征
(1)
众数:一组数据中
____________
的那个数据,叫做这组数据的众数
.
(2)
中位数:把
n
个数据按大小顺序排列,处于
_______
位置的一个数据叫做这组数据的中位数
.
(3)
平均数:把
_____________
称为
a
1
,
a
2
,
…
,
a
n
这
n
个数的平均数
.
出现次数最多
最中间
知识点二
变量间的相关关系与统计案例
1.
两个变量的线性相关
(1)
正相关
在散点图中,点散布在从
_______
到
_______
的区域,对于两个变量的这种相关关系,我们将它称为正相关
.
(2)
负相关
在散点图中,点散布在从
_______
到
_______
的区域,两个变量的这种相关关系称为负相关
.
(3)
线性相关关系、回归直线
如果散点图中点的分布从整体上看大致在
_____________
,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线
.
左下角
右上角
左上角
右下角
一条直线附近
2.
回归方程
(1)
最小二乘法
求回归直线使得样本数据的点到回归直线的
最小的方法叫做最小二乘法
.
距离的平方和
3.
回归分析
(1)
定义
对具有
_________
的两个变量进行统计分析的一种常用方法
.
(2)
样本点的中心
在具有线性相关关系的数据
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
…
,
(
x
n
,
y
n
)
中,
(
x
,
y
)
称为样本点的中心
.
(3)
相关系数
当
r
>0
时,表明两个变量
_______
;
当
r
<0
时,表明两个变量
_______
.
r
的绝对值越接近于
1
,表明两个变量的线性相关性
_____
.
r
的绝对值越接近于
0
,表明两个变量之间几乎不存在线性相关关系
.
通常
|
r
|
大于
____
时,认为两个变量有很强的线性相关性
.
相关关系
正相关
负相关
越强
0.75
4.
独立性检验
(1)
分类变量:变量的
__________
表示个体所属的不同类别的变量叫做分类变量
.
(2)
列联表:列出的
_________________
称作列联表
.
假设有两个分类变量
X
,
Y
,它们的可能取值分别为
{
x
1
,
x
2
}
和
{
y
1
,
y
2
}
,其样本频数列联表为:
不同
“
值
”
两个变量的频数表
y
1
y
2
总计
x
1
a
b
a
+
b
x
2
c
d
c
+
d
总计
a
+
c
b
+
d
a
+
b
+
c
+
d
(3)
独立性检验:利用随机变量
K
2
来确定在多大程度上可以认为
“
___________________
”
的方法称为独立性检验
.
两个分类变量有关系
方法
1
频率分布直方图
【
例
1】
有一个容量为
200
的样本,其频率分布直方图如图所示,根据样本的频率分布直方图估计,样本数据落在区间
[10
,
12)
内的频数为
(
)
A.18 B.36 C.54 D.72
解析
设样本数据落在区间
[10
,
12)
内的频率与组距的比为
x
,
则
(0.02
+
0.05
+
x
+
0.15
+
0.19)
×
2
=
1
得
x
=
0.09
,
所以样本数据落在区间
[10
,
12)
内的频数为
0.09
×
2
×
200
=
36.
答案
B
方法
2
茎叶图
由茎叶图可以清晰地看到数据的分布情况,这一点同频率分布直方图类似,它优于频率分布直方图的第一点是从茎叶图中能看到原始数据,没有任何信息损失,第二点是茎叶图便于记录和表示,其缺点是当样本容量较大时,作图较繁琐
.
【
例
2】
在某电脑杂志的一篇文章中,每个句子中的字数如下:
10
,
28
,
31
,
17
,
23
,
27
,
18
,
15
,
26
,
24
,
20
,
19
,
36
,
27
,
14
,
25
,
15
,
22
,
11
,
24
,
27
,
17.
在某报纸的一篇文章中,每个句子中所含字的个数如下:
27
,
39
,
33
,
24
,
28
,
19
,
32
,
41
,
33
,
27
,
35
,
12
,
36
,
41
,
27
,
13
,
22
,
23
,
18
,
46
,
32
,
22.
(1)
将这两组数据用茎叶图表示;
(2)
将这两组数据进行比较分析,能得到什么结论?
解
(1)
茎叶图如图所示
.
(2)
从茎叶图中可以看出电脑杂志文章中每个句子的字数集中在
10
~
30
之间,中位数为
22.5
,而报纸文章中每个句子的字数集中在
20
~
40
之间,中位数为
27.5
,还可以看出电脑杂志上每个句子的平均字数比报纸上每个句子的平均字数要少,说明电脑杂志作为科普读物需要简明,通俗易懂
.
[
点评
]
茎叶图、频率分布表和频率分布直方图都是用来描述样本数据的分布情况的
.
茎叶图由所有样本数据构成
,
没有损失任何样本信息
,
可以随时记录;而频率分布表和频率分布直方图则损失了样本的一些信息
,必须在完成抽样后才能制作
.
(2)
独立性检验的一般步骤
①
根据样本数据制成
2
×
2
列联表;
②
根据
K
2
公式计算
K
2
的值;
③比较
K
2
与临界值的大小关系,作统计判断选择接受假设还是拒绝假设
.
【
例
3】
(2014·
锦州模拟
)
某中学对高二甲、乙两个同类班级进行
“
加强
‘
语文阅
读理解
’
训练对提高
‘
数学应用题
’
得分率作用
”
的试验,其中甲班为试验班
(
加强语文阅读理解训练
)
,乙班为对比班
(
常规数学,无额外训练
)
,在试验前的测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平均成绩
(
均取整数
)
如下表所示:
60
分以下
61
~
70
分
71
~
80
分
81
~
90
分
91
分~
100
分
甲
班
(
人数
)
3
6
11
18
12
乙
班
(
人数
)
4
8
13
15
10
现规定平均成绩在
80
分以上
(
不含
80
分
)
的为优秀
.
(1)
试分别估计两个班级的优秀率;
(2)
由以上统计数据填写下面
2
×
2
列联表,并问是否有
75%
的把握认为
“
加强
‘
语文阅读理解
’
训练对提高
‘
数学应用题
’
得分率
”
有帮助
.
优秀人数
非优秀人数
合计
甲班
乙班
合计
参考数据:
P
(
K
2
≥
k
0
)
0.50
0.40
0.25
0.15
0.10
k
0
0.455
0.708
1.323
2.072
2.706
P
(
K
2
≥
k
0
)
0.05
0.025
0.010
0.005
0.001
k
0
3.841
5.024
6.635
7.879
10.828
[
点评
]
解决独立性检验的应用问题的方法
首先要根据题目条件列出两个变量的
2
×
2
列联表
,
通过计算随机变量
K
2
的观测值
k
,
依据临界值与犯错误的概率得出结论
.
注意观测值的临界值与概率间的对应关系
.