第八章 - 假设检验
约 2750 个字 预计阅读时间 9 分钟
假设检验的基本思想
问题的提出
统计假设简称为假设,通常用字母 \(H\) 表示。一般我们同时提出两个完全相反的假设,习惯上把其中的一个称作原假设 (null hypothesis) 或零假设,用 \(H_{0}\) 表示;把另一个假设称作备择假设 (alternative hypothesis) 或对立假设,用 \(H_{1}\) 表示。一般地,在有关参数的假设检验中,备择假设是我们根据样本资料想得到支持的假设。
关于总体参数 \(\theta\) 的假设,有三种情况:
- \(H_{0}: \theta \geq \theta_{0}, H_{1}: \theta < \theta_{0}\)
- \(H_{0}: \theta \leq \theta_{0}, H_{1}: \theta > \theta_{0}\)
- \(H_{0}: \theta = \theta_{0}, H_{1}: \theta \neq \theta_{0}\)
其中 \(\theta_{0}\) 是已知常数。以上三种情况中,前两种假设的检验称作单侧检验 (one-sided test);第三种假设的检验称作双侧检验 (two-sided test)。
此外,单侧检验还有下列两种形式:
- \(H_{0}: \theta = \theta_{0}, H_{1}: \theta < \theta_{0}\)
- \(H_{0}: \theta = \theta_{0}, H_{1}: \theta > \theta_{0}\)
检验统计量和拒绝域
一般地,在假设检验问题中,若寻找到某个统计量,其取值大小和原假设 \(H_{0}\) 是否成立有密切联系,我们称之为该假设检验问题的检验统计量 (test statistic),对应于拒绝原假设 \(H_{0}\) 的样本值范围称作拒绝域 (rejection region),记作 \(W\)。拒绝域 \(W\) 的补集 \(\overline{W}\) 称作接受域 (acceptance region)。如果样本落入拒绝域 \(W\) 内,就拒绝原假设 \(H_{0}\);如果样本未落入拒绝域 \(W\) 内,就接受原假设 \(H_{0}\)。
因此,对于一个假设检验问题,给出一个检验规则,相当于在样本空间中划分出一个子集作为检验的拒绝域;反之,给出一个拒绝域也就给出了一个检验规则。故如何选取检验的拒绝域就成为假设检验的一个关键问题。
两类错误
在给出具体的假设检验方法之前,我们需要先讨论假设检验问题中可能出现的两类错误。
根据样本推断总体,由于抽样的随机性,所做的结论不能保证绝对不犯错误,而只能以较大的概率保证其正确性。在假设检验推断中可能出现下列四种情形:
- 拒绝了一个错误的原假设
- 接受了一个真实的原假设
- 拒绝了一个真实的原假设
- 接受了一个错误的原假设
其中前两种情形是正确的。第三种情形称作第 I 类错误 (type I error),也称作弃真错误;第四种情形称作第 II 类错误 (type II error),也称作存伪错误。通常,用 \(\alpha\) 表示犯第 I 类错误的概率,用 \(\beta\) 表示犯第 II 类错误的概率。具体地,有
一般来说,当样本容量固定时,犯这两类错误的概率是相互制约的,使其中一者减小往往伴随着另一者增大。若要同时使得犯两类错误的概率都减小,就必须增大样本容量。
鉴于上述情况,奈曼和皮尔逊提出:首先控制犯第 I 类错误的概率,即选定一个常数 \(\alpha \in (0, 1)\),要求犯第 I 类错误的概率不超过 \(\alpha\);然后在满足这个约束条件的检验中,再寻找使得犯第 II 类错误的概率尽量小的检验。这就是假设检验理论中的奈曼-皮尔逊原则 (Neyman-Pearson lemma),其中的常数 \(\alpha\) 称作显著性水平 (significance level)。
\(P\)-值与统计显著性
在原假设和备择假设中,我们只考虑检验统计量是否落在拒绝域内。但直观上,检验统计量与临界值的距离也会影响我们拒绝或接受原假设的把握。例如当检验统计量落在拒绝域内时,其值离临界值越远,我们拒绝原假设的理由就越充分,检验越显著。
我们采用 \(P\)-值来衡量这一现象,当原假设 \(H_{0}\) 为真时,检验统计量取比观察到的结果更为极端的数值的概率称作 \(P\)-值。在实际运用中,通过计算 \(P\)-值来衡量拒绝 \(H_{0}\) 的理由是否充分。\(P\)-值较小说明观察到的结果在一次实验中发生的可能性较小,\(P\)-值越小,拒绝 \(H_{0}\) 的理由越充分;\(P\)-值较大说明观察到的结果在一次实验中发生的可能性较大,所以没有足够的理由拒绝 \(H_{0}\)。
当假设检验的显著性水平为 \(\alpha\) 时,若 \(P\)-值小于等于 \(\alpha\),则拒绝原假设,此时我们称检验结果在显著性水平 \(\alpha\) 下是统计显著 (statistically significant) 的。
可以说 \(P\)-值提供了比显著性水平 \(\alpha\) 更多的信息,根据 \(P\)-值,我们可以判定在任何给定的显著性水平下检验结果是否显著。
处理假设检验问题的基本步骤
一般的假设检验问题我们可按下列步骤进行:
- 根据实际问题提出原假设和备择假设;
- 提出检验统计量和拒绝域的形式;
- 根据奈曼-皮尔逊原则和给定的显著性水平 \(\alpha\),求出拒绝域 \(W\) 中的临界值;
- 根据实际样本值作出判断。
如果从 \(P\)-值出发考察,步骤也可如下进行:
- 根据实际问题提出原假设和备择假设;
- 提出检验统计量和拒绝域的形式;
- 计算检验统计量的观测值和 \(P\)-值;
- 根据给定的显著性水平 \(\alpha\) 作出判断。
单个正态总体参数的假设检验
设正态总体 \(X \sim N(\mu, \sigma^{2})\),\(X_{1}, X_{2}, \cdots, X_{n}\) 是来自该总体的样本,记
有关参数 \(\mu\) 的假设检验
\(\sigma^{2}\) 已知
先考虑双侧假设问题
其中 \(\mu_{0}\) 是已知的常量。此时我们取检验统计量
当原假设 \(H_{0}\) 成立,即 \(\mu = \mu_{0}\) 时,\(Z \sim N(0, 1)\),根据奈曼-皮尔逊原则,在给定的显著性水平 \(\alpha\) 下,检验的拒绝域为
对给定样本值 \(x_{1}, x_{2}, \cdots, x_{n}\),检验统计量 \(Z\) 的取值 \(z_{0} = \frac{\bar{x} - \mu_{0}}{\frac{\sigma}{\sqrt{n}}}\)。当 \(|z_{0}| \geq z_{\frac{\alpha}{2}}\) 时,就作出拒绝原假设的判断,即认为根据当前样本资料,我们有 \(1 - \alpha\) 的把握认为 \(\mu \neq \mu_{0}\);否则不拒绝原假设。
我们也可以通过计算 \(P\)-值来做出判断,其中
当 \(P\)-值小于等于给定的显著性水平时,拒绝原假设,否则不能拒绝原假设。
对于左侧假设问题
检验统计量仍为
当原假设 \(H_{0}\) 成立,即 \(\mu \geq \mu_{0}\) 时,\(Z\) 取值偏大,检验的拒绝域为
其中临界值 \(c\) 满足奈曼-皮尔逊原则。首先我们来计算犯第 I 类错误的概率:
注意到此时 \(Z\) 不服从标准正态分布,而是
因此
如果假设为 \(H_{0}: \mu = \mu_{0}, H_{1}: \mu < \mu_{0}\),那么犯第 I 类错误的概率为 \(\alpha(\mu_{0}, c)\)。从这一点来看,两个假设检验是有区别的。
显然,\(\alpha(\mu, c)\) 关于 \(\mu\) 是严格减函数,为使犯第 I 类错误的概率不超过给定的显著性水平 \(\alpha\),需满足
又根据奈曼-皮尔逊原则,当上式中等号成立时,犯第 II 类错误的概率最小。因此,应取 \(c = z_{1 - \alpha} = -z_{\alpha}\),故左侧假设检验问题的拒绝域为
我们也可以通过计算 \(P\)-值来做出判断,其中
当 \(P\)-值小于等于给定的显著性水平 \(\alpha\) 时,拒绝原假设 \(H_{0}\),否则不能拒绝原假设 \(H_{0}\)。
类似地,对于右侧假设问题
检验的拒绝域为
\(P\)-值为
上述检验称作 \(Z\) 检验。
\(\sigma^{2}\) 未知
当参数 \(\sigma^{2}\) 未知时,我们不能采用 \(Z\) 检验,而是需要用样本方差 \(S^{2}\) 来代替 \(\sigma^{2}\),从而得到检验统计量
根据 \(t\) 分布的性质,我们知道
于是当给定样本值 \(x_{1}, x_{2}, \cdots, x_{n}\) 时,检验统计量 \(t_{0} = \frac{\bar{x} - \mu_{0}}{\frac{S}{\sqrt{n}}}\)。根据 \(t\) 分布,我们可计算出相应的拒绝域和 \(P\)-值。
双侧假设问题
拒绝域为
\(P\)-值为
左侧假设问题
拒绝域为
\(P\)-值为
右侧假设问题
拒绝域为
\(P\)-值为
上述检验称作 \(t\) 检验。
成对数据的 \(t\) 检验
对于成对数据样本 \((X_{1}, Y_{1}), (X_{2}, Y_{2}), \cdots, (X_{n}, Y_{n})\),\(X_{i}\) 和 \(Y_{i}\) 一般不独立,且 \(X_{1}, X_{2}, \cdots, X_{n}\) 不能看作是来自同一个正态总体的样本,\(Y_{1}, Y_{2}, \cdots, Y_{n}\) 也不能看作是来自同一个正态总体的样本。
此时,我们一般考察差值 \(D_{i} = X_{i} - Y_{i}, i = 1, 2, \cdots, n\)。我们可以将 \(D_{1}, D_{2}, \cdots, D_{n}\) 看作是来自同一个正态总体 \(N(\mu_{D}, \sigma_{D}^{2})\) 的样本。所以,对成对数据差的假设检验可以转化为对单个正态总体均值 \(\mu_{D}\) 的假设检验。
有关参数 \(\sigma^{2}\) 的假设检验
我们不妨设参数 \(\mu\) 是未知的,其假设问题包括
- 双侧假设:\(H_{0}: \sigma^{2} = \sigma_{0}^{2}, H_{1}: \sigma^{2} \neq \sigma_{0}^{2}\)
- 左侧假设:\(H_{0}: \sigma^{2} \geq \sigma_{0}^{2}, H_{1}: \sigma^{2} < \sigma_{0}^{2}\)
- 右侧假设:\(H_{0}: \sigma^{2} \leq \sigma_{0}^{2}, H_{1}: \sigma^{2} > \sigma_{0}^{2}\)
其中 \(\sigma_{0}^{2}\) 是已知的常量。此时 \(\sigma^{2}\) 的无偏估计量
且 \(\frac{(n - 1) S^{2}}{\sigma^{2}} \sim \chi^{2}(n - 1)\)。因此,可取检验统计量为
当 \(\sigma^{2} = \sigma_{0}^{2}\) 时,检验统计量 \(\chi^{2}\) 的分布是已知的,\(\chi^{2} \sim \chi^{2} (n - 1)\)。在给定显著性水平 \(\alpha\) 时,有检验拒绝域:
- 双侧检验:\(W = \{ \chi^{2} \geq \chi_{\frac{\alpha}{2}}^{2} (n - 1) \}\) 或 \(W = \{ \chi^{2} \leq \chi_{1 - \frac{\alpha}{2}}^{2} (n - 1) \}\)
- 左侧检验:\(W = \{ \chi^{2} \leq \chi_{1 - \alpha}^{2} (n - 1) \}\)
- 右侧检验:\(W = \{ \chi^{2} \geq \chi_{\alpha}^{2} (n - 1) \}\)
为了计算 \(P\)-值,将样本值代入后得到检验统计量的值记作 \(\chi_{0}^{2}\),即 \(\chi_{0}^{2} = \frac{(n - 1) s^{2}}{\sigma_{0}^{2}}\),记
- 双侧检验:\(P\text{-值} = 2 \min \{ p_{0}, 1 - p_{0} \}\)
- 左侧检验:\(P\text{-值} = p_{0}\)
- 右侧检验:\(P\text{-值} = 1 - p_{0}\)
我们称上述检验为 \(\chi^{2}\) 检验。