“手撕“ BootStrap 方法
迪丽瓦拉
2025-05-29 21:05:36
0

文章目录

  • Part.I Introduction
    • Chap.I bootstrap 方法简介
    • Chap.II 预备知识
  • Part.II 非参数 bootstrap 方法
    • Chap.I 估计量标准误差的bootstrap估计
    • Chap.II bootstrap 置信区间
    • Chap.III bootstrap-t 法
    • Chap.IV 一个实例
  • Part.III 参数 bootstrap 方法
    • Chap.I 一个实例

Part.I Introduction

因为课时限制,之前本科的《概率论与数理统计》好像没有学到这里,但是因为后来用到了,参考浙大的课本做点笔记。


Chap.I bootstrap 方法简介

bootstrap方法是Efron在20世纪70年代后期建立的。这一方法可以用于当人们对总体知之甚少的情况,它是近代统计中的一种用于数据处理的重要实用方法。这种方法的实现需要在计算机上作大量的计算,随着计算机威力的增长,它已成为一种流行的方法。

前提:设 x=(x1,x2,⋯,xn)\mathbf x=(x_1,x_2,\cdots,x_n)x=(x1​,x2​,⋯,xn​) 是来自分布函数为 FFF 的总体的样本。R(x)R(x)R(x) 是 xxx 的函数,FnF_nFn​ 是相应的经验分布函数。我们感兴趣的是 R(x)R(x)R(x) 的某些特征,比如均值或中位数等。

bootstrap 方法根据对分布函数的掌握程度分为

  • 非参数 bootstrap 方法:总体的分布函数 FFF 未知;先利用已知的经验分布函数 FnF_nFn​ 代替 FFF,在 FnF_nFn​ 中抽样,得到数据样本 x∗x^*x∗,然后计算 R(x∗)R(x^*)R(x∗) 的均值或中位数,作为所需求的均值或中位数的 bootstrap 估计。
  • 参数 bootstrap 方法:总体的分布函数 F(x;β)F(x;\beta)F(x;β) 形式已知,参数 β\betaβ 未知;先利用样本 xxx 求出 β\betaβ 的最大似然估计 β^\hat \betaβ^​,以 F(x;β^)F(x;\hat \beta)F(x;β^​) 代替 FFF,在 F(x;β^)F(x;\hat \beta)F(x;β^​) 中抽样得到数据样本 x∗x^*x∗,然后计算 R(x∗)R(x^*)R(x∗) 的均值或中位数,作为所需求的均值或中位数的 bootstrap 估计。

Chap.II 预备知识

枢轴量 pivotal quantity

概括的说,统计量本身完全是样本的函数,自身不包含任何未知参数(样本一旦确定,统计量的值也就定下来了),但是其分布却往往包含未知参数;枢轴量恰恰相反,枢轴量本身就包含总体中的未知参数,但是其分布的形式一般是确定的,不包含未知参数。

定义:设总体 XXX 有概率密度(或分布律)f(x;θ)f(x;\theta)f(x;θ),其中 θ\thetaθ 是待估的未知参数。设 X1,⋯,XnX_1,\cdots,X_nX1​,⋯,Xn​ 是一个样本,记 G=G(X1,X2,⋯,Xn;θ)G=G(X_1,X_2,\cdots,X_n;\theta)G=G(X1​,X2​,⋯,Xn​;θ) 为样本和待估参数 θ\thetaθ 的函数,如果 GGG 的分布已知,不依赖与任何参数,就称 GGG 为枢轴量。

由上述定义可以看出枢轴量的几个特点:

  • 与某个待估参数有关(事实上枢轴量法主要被用于未知参数的区间估计);
  • 本身含有未知参数(待估参数),因此不具有“可观察性”,也就是说即使选定了样本也无法计算出确定的值;
  • 其分布是明确的(有具体的数学公式,不包含未知参数)。

一个比较常见的例子:正态分布转换成标准正态分布时,随机变量中还是包含未知参数,但是其分布中却不包含任何未知参数。因此标准化之后的随机变量是一个枢轴量。

摘自:知乎@Belter昕


Part.II 非参数 bootstrap 方法

设总体的分布 FFF 未知,但已经有一个容量为 nnn 的来自分布F的数据样本,自这一样本按放回抽样的方法抽取一个容量为 nnn 的样本,这种样本称为bootstrap样本或称为自助样本。相继地、独立地自原始样本中取很多个bootstrap样本,利用这些样本对总体 FFF 进行统计推断。这种方法称为非参数bootstrap方法,又称自助法

Chap.I 估计量标准误差的bootstrap估计

在估计总体未知参数 θ\thetaθ 时,人们不但要给出 θ\thetaθ 的估计值 θ^\hat\thetaθ^,还需要指出这一估计 θ^\hat\thetaθ^ 的精度。通常我们用估计量 θ^\hat\thetaθ^ 的标准差 D(θ^)\sqrt{D(\hat\theta)}D(θ^)​ 来度量估计的精度。估计量 θ^\hat\thetaθ^ 的标准差 σθ^=D(θ^)\sigma_{\hat\theta}=\sqrt{D(\hat\theta)}σθ^​=D(θ^)​ 也称为估计量 θ^\hat\thetaθ^ 的标准误差

下面给出求 D(θ^)\sqrt{D(\hat\theta)}D(θ^)​ 的 bootstrap 估计的步骤:

  • 自原始数据样本 x=(x1,x2,⋯,xn)\mathbf x=(x_1,x_2,\cdots,x_n)x=(x1​,x2​,⋯,xn​) 按放回抽样的方法,抽得容量为 nnn 的样本 x∗=(x1∗,x2∗,⋯,xn∗)\mathbf x^*=(x_1^*,x_2^*,\cdots,x_n^*)x∗=(x1∗​,x2∗​,⋯,xn∗​) (称为bootstrap样本);
  • 相继地、独立地模拟出 BBB 个(B≥1000B\ge 1000B≥1000)容量为 nnn 的bootstrap样本,x∗i=(x1∗i,x2∗i,⋯,xn∗i),i=1,2,⋯,B\mathbf x^{*i}=(x_1^{*i},x_2^{*i},\cdots,x_n^{*i}),i=1,2,\cdots,Bx∗i=(x1∗i​,x2∗i​,⋯,xn∗i​),i=1,2,⋯,B,对于第 iii 个bootstrap样本,计算 θ^i∗=θ^(x1∗i,x2∗i,⋯,xn∗i),i=1,2,⋯,B\hat \theta^*_i=\hat \theta(x_1^{*i},x_2^{*i},\cdots,x_n^{*i}),i=1,2,\cdots,Bθ^i∗​=θ^(x1∗i​,x2∗i​,⋯,xn∗i​),i=1,2,⋯,B (θ^i∗\hat \theta^*_iθ^i∗​ 称为 θ\thetaθ 的第 iii 个 bootstrap 估计)
  • 计算 σ^θ^=1B−1∑i=1B(θ^i∗−θ∗‾)2\hat \sigma_{\hat \theta}=\sqrt{\frac{1}{B-1}\sum\limits_{i=1}^B(\hat \theta_i^*-\overline{\theta^*})^2}σ^θ^​=B−11​i=1∑B​(θ^i∗​−θ∗)2​,其中 θ∗‾=1B∑i=1Bθ∗\overline{\theta^*}=\frac{1}{B}\sum\limits_{i=1}^B{\theta^*}θ∗=B1​i=1∑B​θ∗

值得注意的是,上面求的是估计量标准误差的bootstrap估计,相似地,对于我们感兴趣的任意随机变量 R=R(X)R=R(\mathbf X)R=R(X),我们希望去估计 RRR 的分布的某些特征,例如 RRR 的数学期望 E(R)E(R)E(R),就可以按照上面所说的三个步骤进行,只是在:
第二步中对于第 iii 个bootstrap样本,计算 Ri∗=R(x1∗i,x2∗i,⋯,xn∗i),i=1,2,⋯,BR^*_i=R(x_1^{*i},x_2^{*i},\cdots,x_n^{*i}),i=1,2,\cdots,BRi∗​=R(x1∗i​,x2∗i​,⋯,xn∗i​),i=1,2,⋯,B,代替计算 θi∗\theta^*_iθi∗​
第三步中计算感兴趣的 RRR 的特征,例如我们希望估计 E(R)E(R)E(R) 就可以计算 E(R∗)=1B∑i=1BRi∗E(R^*)=\frac{1}{B}\sum\limits_{i=1}^B{R_i^*}E(R∗)=B1​i=1∑B​Ri∗​

Chap.II bootstrap 置信区间

设 X=(X1,X2,⋯,Xn)\textbf{X}=(X_1,X_2,\cdots,X_n)X=(X1​,X2​,⋯,Xn​) 是来自总体 FFF 容量为 nnn 的样本,x=(x1,x2,⋯,xn)x=(x_1,x_2,\cdots,x_n)x=(x1​,x2​,⋯,xn​) 是一个已知的样本值。FFF 中含有未知参数 θ\thetaθ,θ^=θ^(X1,X2,⋯,Xn)\hat \theta=\hat \theta(X_1,X_2,\cdots,X_n)θ^=θ^(X1​,X2​,⋯,Xn​) 是 θ\thetaθ 的估计量,现在来求 θ\thetaθ 的置信水平为 1−α1-\alpha1−α 的置信区间。

相继地、独立地从样本 x=(x1,x2,⋯,xn)\mathbf x=(x_1,x_2,\cdots,x_n)x=(x1​,x2​,⋯,xn​) 中抽出 BBB 个容量为 nnn 的bootstrap 样本,对于每个 bootstrap 样本求出 θ\thetaθ 的bootstrap 估计:θ^1∗,θ^2∗,⋯,θ^B∗\hat \theta_1^*,\hat \theta_2^*,\cdots,\hat \theta_B^*θ^1∗​,θ^2∗​,⋯,θ^B∗​,将它们自小到大排序得到 θ^(1)∗,θ^(2)∗,⋯,θ^(B)∗\hat \theta_{(1)}^*,\hat \theta_{(2)}^*,\cdots,\hat \theta_{(B)}^*θ^(1)∗​,θ^(2)∗​,⋯,θ^(B)∗​。取 R(X)=θR(\mathbf{X})=\thetaR(X)=θ,用相应的 R(X∗)=θ^∗R(\mathbf{X^*})=\hat\theta^*R(X∗)=θ^∗ 的分布作为 R(X)R(\mathbf{X})R(X) 的分布的近似,求出 R(X∗)R(\mathbf{X^*})R(X∗) 的分布的近似分位数 θ^α/2∗\hat\theta^*_{\alpha/2}θ^α/2∗​ 和 θ^1−α/2∗\hat\theta^*_{1-\alpha/2}θ^1−α/2∗​ 使
P{θ^α/2∗<θ^∗<θ^1−α/2∗}=1−αP\{\hat\theta^*_{\alpha/2}<\hat\theta^*<\hat\theta^*_{1-\alpha/2} \}=1-\alphaP{θ^α/2∗​<θ^∗<θ^1−α/2∗​}=1−α
于是近似地有
P{θ^α/2∗<θ<θ^1−α/2∗}=1−α(1.5)P\{\hat\theta^*_{\alpha/2}<\theta<\hat\theta^*_{1-\alpha/2} \}=1-\alpha\tag{1.5}P{θ^α/2∗​<θ<θ^1−α/2∗​}=1−α(1.5)
记 k1=[B×α2],k2=[B×(1−α2)]k_1=[B\times\frac{\alpha}{2}],k_2=[B\times(1-\frac{\alpha}{2})]k1​=[B×2α​],k2​=[B×(1−2α​)],在式(1.5)中以 θ^(k1)∗\hat\theta^*_{(k_1)}θ^(k1​)∗​ 和 θ^(k2)∗\hat\theta^*_{(k_2)}θ^(k2​)∗​ 分别作为分位数 θ^α/2∗\hat\theta^*_{\alpha/2}θ^α/2∗​ 和 θ^1−α/2∗\hat\theta^*_{1-\alpha/2}θ^1−α/2∗​ 的估计,得到近似等式
P{θ^(k1)∗<θ<θ^(k2)∗}=1−α(1.6)P\{\hat\theta^*_{(k_1)}<\theta<\hat\theta^*_{(k_2)} \}=1-\alpha\tag{1.6}P{θ^(k1​)∗​<θ<θ^(k2​)∗​}=1−α(1.6)
于是由上式就得到 θ\thetaθ 的置信水平为 1−α1-\alpha1−α 的近似置信区间
(θ(k1)∗,θ^(k2)∗)(1.7)(\theta^*_{(k_1)},\hat\theta^*_{(k_2)} )\tag{1.7}(θ(k1​)∗​,θ^(k2​)∗​)(1.7)
这一区间称为 θ\thetaθ 的置信水平为 1−α1-\alpha1−α 的 bootstrap 置信区间。这种求置信区间的方法称为分位数法

Chap.III bootstrap-t 法

在这里插入图片描述
在这里插入图片描述

Chap.IV 一个实例

在这里插入图片描述

Part.III 参数 bootstrap 方法

当所研究的总体的分布函数 F(x;β)F(x;\beta)F(x;β) 的形式已知,但是其中包含未知参数 β\betaβ(β\betaβ可以是向量)。现在已知有一个来自 F(x;β)F(x;\beta)F(x;β) 的样本 X1,X2,⋯,XnX_1,X_2,\cdots,X_nX1​,X2​,⋯,Xn​,利用这一样本求出 β\betaβ 的最大似然估计 β^\hat\betaβ^​。在 F(x;β)F(x;\beta)F(x;β) 中以 β^\hat\betaβ^​ 代替 β\betaβ 得到 F(x;β^)F(x;\hat\beta)F(x;β^​),接着在 F(x;β^)F(x;\hat\beta)F(x;β^​) 中产生容量为 nnn 的样本 X1∗,X2∗,⋯,Xn∗∼F(x;β^)X_1^*,X_2^*,\cdots,X_n^*\sim F(x;\hat\beta)X1∗​,X2∗​,⋯,Xn∗​∼F(x;β^​)。这种样本可以产生很多个,就可以利用这些样本对总体进行统计推断,其做法与非参数bootstrap方法一样,这种方法称为参数bootstrap方法

Chap.I 一个实例

在这里插入图片描述
在这里插入图片描述

相关内容