考研数学概率论之抽样分布笔记
一、常用统计量
设 X 1 , X 2 , ⋯ , X n X_1, X_2, \cdots, X_n X 1 , X 2 , ⋯ , X n 是来自总体 X X X 的一个样本,x 1 , x 2 , ⋯ , x n x_1, x_2, \cdots, x_n x 1 , x 2 , ⋯ , x n 是这一样本的观察值。
1. 样本平均值
样本均值:
X ‾ = 1 n ∑ i = 1 n X i \overline{X} = \frac{1}{n} \sum_{i=1}^n X_i X = n 1 i = 1 ∑ n X i
其观察值:
x ‾ = 1 n ∑ i = 1 n x i \overline{x} = \frac{1}{n} \sum_{i=1}^n x_i x = n 1 i = 1 ∑ n x i
样本均值反映了样本数据的平均水平,在对总体均值进行推断时起到关键作用。例如在估计某班级学生的平均成绩时,样本均值就是重要的参考统计量。
2. 样本方差
样本方差:
S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \overline{X})^2 S 2 = n − 1 1 i = 1 ∑ n ( X i − X ) 2
其观察值:
s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ‾ ) 2 s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i - \overline{x})^2 s 2 = n − 1 1 i = 1 ∑ n ( x i − x ) 2
样本方差用于衡量样本数据的离散程度,方差越大,说明数据越分散。比如在分析不同批次产品质量的稳定性时,样本方差能直观体现数据的波动情况。
3. 样本标准差
样本标准差:
S = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 S = \sqrt{\frac{1}{n-1} \sum_{i=1}^n (X_i - \overline{X})^2} S = n − 1 1 i = 1 ∑ n ( X i − X ) 2
其观察值:
s = 1 n − 1 ∑ i = 1 n ( x i − x ‾ ) 2 s = \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i - \overline{x})^2} s = n − 1 1 i = 1 ∑ n ( x i − x ) 2
它与样本方差作用类似,只是标准差的量纲与数据本身一致,更便于直观理解数据的离散程度。
4. 样本 k k k 阶(原点)矩
A k = 1 n ∑ i = 1 n X i k A_k = \frac{1}{n} \sum_{i=1}^n X_i^k A k = n 1 i = 1 ∑ n X i k
k = 1 , 2 , ⋯ k=1,2,\cdots k = 1 , 2 , ⋯ ,其观察值:
a k = 1 n ∑ i = 1 n x i k a_k = \frac{1}{n} \sum_{i=1}^n x_i^k a k = n 1 i = 1 ∑ n x i k
一阶原点矩就是样本均值,而高阶原点矩可以反映数据在分布上的一些特征,例如三阶原点矩可以用于衡量数据分布的偏态。
5. 样本 k k k 阶中心矩
B k = 1 n ∑ i = 1 n ( X i − X ‾ ) k B_k = \frac{1}{n} \sum_{i=1}^n (X_i - \overline{X})^k B k = n 1 i = 1 ∑ n ( X i − X ) k
k = 2 , 3 , ⋯ k=2,3,\cdots k = 2 , 3 , ⋯ ,其观察值:
b k = 1 n ∑ i = 1 n ( x i − x ‾ ) k b_k = \frac{1}{n} \sum_{i=1}^n (x_i - \overline{x})^k b k = n 1 i = 1 ∑ n ( x i − x ) k
二阶中心矩与样本方差紧密相关,它消除了均值对数据离散程度度量的影响,能更纯粹地反映数据围绕均值的波动。
二、常考性质
若总体 X X X 的 k k k 阶矩 E ( X k ) = μ k E(X^k)=\mu_k E ( X k ) = μ k 存在(k ≥ 1 k\geq1 k ≥ 1 ),当 n n n 充分大时,由辛钦定理可知,样本 k k k 阶原点矩 A k A_k A k 依概率收敛于总体 k k k 阶原点矩 μ k \mu_k μ k 。即 A k → P μ k A_k \xrightarrow{P} \mu_k A k P μ k ,这是矩估计法的理论依据。比如在估计总体均值(一阶原点矩)时,我们可以用样本均值(样本一阶原点矩)作为估计量,当样本量足够大时,这种估计是合理且可靠的。
样本均值 X ‾ \overline{X} X 与样本方差 S 2 S^2 S 2 相互独立(这一性质在正态总体下尤为重要)。在后续对正态总体参数进行区间估计和假设检验时,该性质会频繁使用,简化了很多复杂的计算和推导过程。
三、常见分布
(一)χ 2 \chi^2 χ 2 分布
1. 定义
设 X 1 , X 2 , ⋯ , X n X_1, X_2, \cdots, X_n X 1 , X 2 , ⋯ , X n 相互独立且均服从标准正态分布 N ( 0 , 1 ) N(0,1) N ( 0 , 1 ) ,则
χ 2 = X 1 2 + X 2 2 + ⋯ + X n 2 \chi^2 = X_1^2 + X_2^2 + \cdots + X_n^2 χ 2 = X 1 2 + X 2 2 + ⋯ + X n 2
服从自由度为 n n n 的 χ 2 \chi^2 χ 2 分布,记为 χ 2 ∼ χ 2 ( n ) \chi^2 \sim \chi^2(n) χ 2 ∼ χ 2 ( n ) 。这里自由度 n n n 表示独立变量的个数。例如在研究多个独立的标准正态分布随机变量平方和的分布情况时,就会用到 χ 2 \chi^2 χ 2 分布。
2. 概率密度函数
f ( x ) = { 1 2 n / 2 Γ ( n / 2 ) x n / 2 − 1 e − x / 2 , x > 0 0 , x ≤ 0 f(x) = \begin{cases}
\frac{1}{2^{n/2} \Gamma(n/2)} x^{n/2-1} e^{-x/2}, & x>0 \\
0, & x\leq0
\end{cases} f ( x ) = { 2 n /2 Γ ( n /2 ) 1 x n /2 − 1 e − x /2 , 0 , x > 0 x ≤ 0
虽然该函数形式较为复杂,但理解其大致形状和特征很重要,它的图像是在 x > 0 x>0 x > 0 一侧的单峰偏态分布。
3. 性质
可加性 :若 χ 1 2 ∼ χ 2 ( n 1 ) \chi_1^2 \sim \chi^2(n_1) χ 1 2 ∼ χ 2 ( n 1 ) ,χ 2 2 ∼ χ 2 ( n 2 ) \chi_2^2 \sim \chi^2(n_2) χ 2 2 ∼ χ 2 ( n 2 ) ,且独立,则 χ 1 2 + χ 2 2 ∼ χ 2 ( n 1 + n 2 ) \chi_1^2 + \chi_2^2 \sim \chi^2(n_1+n_2) χ 1 2 + χ 2 2 ∼ χ 2 ( n 1 + n 2 ) 。这个性质可以推广到多个相互独立的 χ 2 \chi^2 χ 2 分布随机变量相加的情形。比如在分析多个独立的基于标准正态分布构造的 χ 2 \chi^2 χ 2 统计量之和的分布时,可加性就非常有用。
数学期望与方差 :若 χ 2 ∼ χ 2 ( n ) \chi^2 \sim \chi^2(n) χ 2 ∼ χ 2 ( n ) ,则 E ( χ 2 ) = n E(\chi^2)=n E ( χ 2 ) = n ,D ( χ 2 ) = 2 n D(\chi^2)=2n D ( χ 2 ) = 2 n 。通过这两个数字特征,可以对 χ 2 \chi^2 χ 2 分布的取值范围和波动程度有更清晰的认识。例如在判断某个服从 χ 2 \chi^2 χ 2 分布的统计量的取值是否合理时,可参考其期望和方差。
4. 分位点
对于给定的正数 α \alpha α (0 < α < 1 0<\alpha<1 0 < α < 1 ),满足 P { χ 2 > χ α 2 ( n ) } = α P\{\chi^2 > \chi^2_{\alpha}(n)\}=\alpha P { χ 2 > χ α 2 ( n )} = α 的点 χ α 2 ( n ) \chi^2_{\alpha}(n) χ α 2 ( n ) 为 χ 2 ( n ) \chi^2(n) χ 2 ( n ) 分布的右(上)α \alpha α 分位点。在进行假设检验等统计推断时,分位点常用于确定拒绝域。比如在 χ 2 \chi^2 χ 2 检验中,根据计算得到的统计量与相应的分位点比较,来判断是否拒绝原假设。
(二)t t t 分布
1. 定义
设 X ∼ N ( 0 , 1 ) X \sim N(0,1) X ∼ N ( 0 , 1 ) ,Y ∼ χ 2 ( n ) Y \sim \chi^2(n) Y ∼ χ 2 ( n ) ,且 X X X 与 Y Y Y 独立,则
T = X Y / n T = \frac{X}{\sqrt{Y/n}} T = Y / n X
服从自由度为 n n n 的 t t t 分布,记为 T ∼ t ( n ) T \sim t(n) T ∼ t ( n ) 。
2. 概率密度函数
f ( t ) = Γ ( n + 1 2 ) n π Γ ( n 2 ) ( 1 + t 2 n ) − n + 1 2 , − ∞ < t < + ∞ f(t) = \frac{\Gamma\left(\frac{n+1}{2}\right)}{\sqrt{n\pi}\,\Gamma\left(\frac{n}{2}\right)} \left(1+\frac{t^2}{n}\right)^{-\frac{n+1}{2}}, \quad -\infty < t < +\infty f ( t ) = nπ Γ ( 2 n ) Γ ( 2 n + 1 ) ( 1 + n t 2 ) − 2 n + 1 , − ∞ < t < + ∞
其图像关于 t = 0 t=0 t = 0 对称,形状与标准正态分布相似,但在自由度较小时,尾部比标准正态分布更厚,意味着出现极端值的概率更大。
3. 性质
当 n n n 足够大时(一般 n > 30 n>30 n > 30 ),t t t 分布近似于标准正态分布 N ( 0 , 1 ) N(0,1) N ( 0 , 1 ) 。但对于较小的 n n n ,两者差别较大。在实际应用中,若样本量较小,应使用 t t t 分布进行统计分析;若样本量较大,可近似用正态分布简化计算。例如在对小样本的产品质量数据进行均值检验时,通常使用 t t t 分布。
4. 分位点
对于给定的正数 α \alpha α (0 < α < 1 0<\alpha<1 0 < α < 1 ),满足 P { T > t α ( n ) } = α P\{T > t_{\alpha}(n)\}=\alpha P { T > t α ( n )} = α 的点 t α ( n ) t_{\alpha}(n) t α ( n ) 为 t ( n ) t(n) t ( n ) 分布的右(上)α \alpha α 分位点。由于 t t t 分布的对称性,t 1 − α ( n ) = − t α ( n ) t_{1-\alpha}(n) = -t_{\alpha}(n) t 1 − α ( n ) = − t α ( n ) 。在 t t t 检验中,通过比较计算得到的 t t t 统计量与分位点来做出统计决策。
(三)F F F 分布
1. 定义
设 U ∼ χ 2 ( n 1 ) U \sim \chi^2(n_1) U ∼ χ 2 ( n 1 ) ,V ∼ χ 2 ( n 2 ) V \sim \chi^2(n_2) V ∼ χ 2 ( n 2 ) ,且 U U U 与 V V V 独立,则
F = U / n 1 V / n 2 F = \frac{U/n_1}{V/n_2} F = V / n 2 U / n 1
服从自由度为 ( n 1 , n 2 ) (n_1, n_2) ( n 1 , n 2 ) 的 F F F 分布,记为 F ∼ F ( n 1 , n 2 ) F \sim F(n_1, n_2) F ∼ F ( n 1 , n 2 ) 。
2. 概率密度函数
f ( x ) = { Γ ( n 1 + n 2 2 ) Γ ( n 1 2 ) Γ ( n 2 2 ) ( n 1 n 2 ) n 1 / 2 x n 1 / 2 − 1 ( 1 + n 1 n 2 x ) − ( n 1 + n 2 ) / 2 , x > 0 0 , x ≤ 0 f(x) = \begin{cases}
\frac{\Gamma\left(\frac{n_1+n_2}{2}\right)}{\Gamma\left(\frac{n_1}{2}\right)\Gamma\left(\frac{n_2}{2}\right)} \left(\frac{n_1}{n_2}\right)^{n_1/2} x^{n_1/2-1} \left(1+\frac{n_1}{n_2}x\right)^{-(n_1+n_2)/2}, & x>0 \\
0, & x\leq0
\end{cases} f ( x ) = ⎩ ⎨ ⎧ Γ ( 2 n 1 ) Γ ( 2 n 2 ) Γ ( 2 n 1 + n 2 ) ( n 2 n 1 ) n 1 /2 x n 1 /2 − 1 ( 1 + n 2 n 1 x ) − ( n 1 + n 2 ) /2 , 0 , x > 0 x ≤ 0
其图像也是单峰偏态分布,形状取决于两个自由度的值。
3. 性质
若 F ∼ F ( n 1 , n 2 ) F \sim F(n_1, n_2) F ∼ F ( n 1 , n 2 ) ,则 1 / F ∼ F ( n 2 , n 1 ) 1/F \sim F(n_2, n_1) 1/ F ∼ F ( n 2 , n 1 ) 。这个性质在一些统计推断中可以简化计算,例如在进行双侧 F F F 检验时,利用该性质可以更方便地确定拒绝域。
4. 分位点
对于给定的正数 α \alpha α (0 < α < 1 0<\alpha<1 0 < α < 1 ),满足 P { F > F α ( n 1 , n 2 ) } = α P\{F > F_{\alpha}(n_1, n_2)\}=\alpha P { F > F α ( n 1 , n 2 )} = α 的点 F α ( n 1 , n 2 ) F_{\alpha}(n_1, n_2) F α ( n 1 , n 2 ) 为 F ( n 1 , n 2 ) F(n_1, n_2) F ( n 1 , n 2 ) 分布的右(上)α \alpha α 分位点。同时,有 F 1 − α ( n 1 , n 2 ) = 1 / F α ( n 2 , n 1 ) F_{1-\alpha}(n_1, n_2) = 1/F_{\alpha}(n_2, n_1) F 1 − α ( n 1 , n 2 ) = 1/ F α ( n 2 , n 1 ) 。在方差分析等应用中,根据 F F F 统计量与分位点的比较来判断不同组数据的方差是否存在显著差异。
本文档总结了考研概率论中抽样分布的核心知识点,适合复习与查阅。