均值的比较 1(置信区间 Confidence Interval CI)

学习笔记

作者: MingXiao 2024/07/12

4.1.1 单样本

4.1.1.1 单样本总体方差已知，用Z分布

对正态总体或近似正态总体，有 $$\frac{\overline{x}-\mu}{\sigma / \sqrt{n}}\sim N(0,1)$$ 若要求置信度为$1-\alpha$，则
$$\therefore P(-u_{\frac{\alpha}{2}}<\frac{\overline{x}-\mu}{\sigma / \sqrt{n}}\leq u_{\frac{\alpha}{2}})=1-\alpha$$ $$\Rightarrow \mathsf{CI}_{1-\alpha}=(\overline{x}-u_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}},\overline{x}+u_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}})$$

4.1.1.2 单样本总体方差未知，用t分布

$$\frac{\overline{x}-\mu}{s / \sqrt{n}}\sim t(n-1)$$ $$\therefore P(-t_{\frac{\alpha}{2}}<\frac{\overline{x}-\mu}{s / \sqrt{n}}\leq t_{\frac{\alpha}{2}})=1-\alpha$$ $$\Rightarrow \mathsf{CI}_{1-\alpha}=(\overline{x}-t_{\frac{\alpha}{2}}\frac{s}{\sqrt{n}},\overline{x}+t_{\frac{\alpha}{2}}\frac{s}{\sqrt{n}})$$

4.1.2 双样本

4.1.2.1 双样本是配对的（非独立样本）

何为配对：
同一批人的两次成绩差的均值、双胞胎之间的身高差均值等，可以找到配对的双方的量
等价于单样本的分布，参见上方4.1.1

4.1.2.2 两个独立样本，总体方差各自已知

已知$\overline{x_1}-\overline{x_2}$的置信区间

$$\therefore \overline{x_1}-\overline{x_2} \sim N(\mu_1-\mu_2,\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2})$$

记$\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}=\sigma^2=sem^2$，称其为$\overline{x_1}-\overline{x_2}$的标准方差，也称标准误差的平方
$$\therefore \frac{(\overline{x_1}-\overline{x_2})-(\mu_1-\mu_2)}{\sigma} \sim N(0,1)$$ $$\Rightarrow \mathsf{CI_{1-\alpha}}=(\overline{x_1}-\overline{x_2})\pm u_{\frac{\alpha}{2}}\sqrt{\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}}$$

4.1.2.3 两个独立样本，总体方差未知但相等

已知$\sigma^2_1=\sigma^2_2=\sigma^2$，但是多少不知道
使用t分布
$$\therefore \overline{x_1}-\overline{x_2} \sim N(\mu_1-\mu_2, \frac{\sigma^2}{n_1}+\frac{\sigma^2}{n_2})$$ $$\Rightarrow \frac{(\overline{x_1}-\overline{x_2})-(\mu_1-\mu_2)}{\sigma \sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \sim N(0,1)$$ $$\because \frac{(n_1-1)s^2_1}{\sigma^2} \sim \chi^2 (n_1-1),\frac{(n_2-1)s^2_2}{\sigma^2} \sim \chi^2 (n_2-1)$$ $$\therefore \frac{(\overline{x_1}-\overline{x_2})-(\mu_1-\mu_2)}{\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}\sqrt{\frac{(n_1-1)s^2_1+(n_2-1)s^2_2}{n_1+n_2-2}}} \sim t(n_1+n_2-2)$$ def$\sqrt{\frac{(n_1-1)s^2_1+(n_2-1)s^2_2}{n_1+n_2-2}}=s_p$，$\overline{x_1}-\overline{x_2}$的标准误差为$sem=s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}$
$$\therefore \frac{(\overline{x_1}-\overline{x_2})-(\mu_1-\mu_2)}{s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \sim t(n_1+n_2-2)$$ $$\Rightarrow \mathsf{CI}_{1-\alpha}=(\overline{x_1}-\overline{x_2})\pm t_{\frac{\alpha}{2}}(n_1+n_2-2)s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}$$

4.1.2.4 两个独立样本，总体方差未知且不相等

使用Welch's t分布
推导过于复杂，直接给出结论
$$\mathsf{CI}_{1-\alpha}=(\overline{x_1}-\overline{x_2})\pm t_{\frac{\alpha}{2}}(\nu)\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}$$ 其中$\nu$为t分布的自由度，通常不是整数，用最接近的整数计算，有
$$\nu=\frac{(\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2})^2}{\frac{1}{(n_1-1)}(\frac{s_1^2}{n_1})^2+\frac{1}{(n_2-1)}(\frac{s_2^2}{n_2})^2}$$