估计

文档讨论了估计参数的方法,包括区间估计的基本计算方法和步骤,以及常用的置信区间求法。这些方法适用于单一正态分布和双正态分布,包括已知和未知方差的情况。对于非正态分布,可以通过中心极限定理近似为正态分布进行估计。此外,还讨论了比率的置信空间的估计方法。

点估计和估计量的评价 Estimation

知道分布, 使用统计量估计某些参数。点估计使用具体的数值估计。

可以使用均值估计期望, S2估计方差, 频率估计概率

估计量 Estimateur

使用统计量T, 确定目标的某一个参数Θ, 这里, T时Θ的估计量。

估计量不是唯一的, 比如$S^2$和$S^{  2}*$都可以用来估计方差。

目标是找到(收敛) 无偏, 最小方差估计, 具体定义解释如下

收敛性

估计量依概率收敛到目标参数

无偏估计 sans biais

偏的定义

  • 偏:$E(T) − θ$
  • 若 $E(T) − θ = 0$ 称为无偏, 否则称为有偏。在有偏的情况下, 若满足 $E(T)-\theta \xrightarrow[n\rightarrow \infty]{} 0$, 则称为渐进无偏
  • 均值 是无偏的估计量
  • 方差 S2 是有偏的估计量, 是渐进无偏的; 修正的方差 S * 2 是无偏的估计量
  • 通过线性变换可以使有偏估计量无偏

准确性 présition

准确性没有唯一标准, 一般使用均方误差(quadratique moyenne):

似然函数 Vraisemblance

对于随机样本$(X_1, …, X_n)$, 有分布 $X \thicksim f(x, \theta)$, 对于$(X_1, …, X_n)$, 似然度定义如下:

完全统计量 statistique complete

一个指数族分布的充分统计量时完全的(complet)

Les statistiques exhaustives des familles exponentielles sont complètes.

充分统计量 statistique exhaustive

充分统计量 T 应该包含统计量的全部信息, 如果T使充分统计量, 则其密度函数g(t, θ)满足:

也就是$L((\underline x), \theta)/g(t, \theta)$ 与 θ 无关:

充分统计量的单射(injective)还是充分统计量

Exemple 1

对于泊松分布P(λ):

其似然度:

考虑$T$是一个$xi$的函数, 且考虑质量函数计算难度和与自由度$\lambda$的关系, 选择 $T = \sum{i = 1}^{n}X_i$ 作为统计量, 有:

  • T是泊松分布的和

将似然度里的相应部分替换为统计量T = t:有:

λ无关, 说明统计量T包含了原分布中的所有信息, 是充分统计量

Exemple 2

$X \thicksim LG(m, \sigma)$, m已知, γ未知

其密度函数:

其似然:

因此选择统计量:

$T = \sum_{i = 1}^n({x_i-m})^2$

设$Y = T/σ^2$, 有:

得到T的密度函数:

随机变量函数的密度函数求法

无偏最小方差估计原理 meilleur estimateur

Théorème 1: 唯一性原理

无偏最小方差有唯一性

Théorème 2: Rao-Blackwell定理

对于$Θ$ ,$T$ 是一个无偏估计, $U$是充分统计量, 则:

$T^ = E(T|U)*$

也是一个无偏估计, 且 $V(T^) < V(T)*$

证明:

当$E(V(T|u)) = 0$时, 有$V(T) = V(T ^ )$, 此时有$T = f(u)*$

Théorème 3

如果存在充分统计量$u$, 则最小方差的无偏差估计$T$仅取决于$u$

Théorème 4

对于$Θ$, 如果$U$是完全充分统计量, $T^**$是一个依赖于$U$的无偏估计量, 则$T^**$是唯一的无偏最小方差估计

无偏最小方差估计找寻方法

  • 找到充分统计量U:
    • 找到似然函数
    • 找到T
    • 计算g(t, θ)
    • 计算$\frac{L(\underline(x), \theta)}{g(t, \theta)}$
  1. 使用Les statistiques exhaustives des familles exponentielles sont complètes说明充分统计量是完全的的

  2. 找到$T^ = f(U)$, 使得$T^**$无偏

最大似然函数法

找到$\widehat{\Theta}$, 使得:

具体的, 找到$\widehat{\Theta}$, 使得:

如果解出的$\widehat{\Theta}$是无偏的, 则是无偏最小方差估计

Exemple

对于正态分布$X \thicksim LG(m, \gamma)$, $m$未知, $γ$已知

其密度函数:

其似然:

对数后对m求导:

解得:

验证无偏, 故得到最佳估计

区间估计和置信区间评价方法 Estimation par intervalles

区间估计是一种统计推断的方法,它提供了一个可能包含未知参数的区间,而不是提供一个单一的点估计。这个区间被称为置信区间 I,并附带一个置信水平 $\alpha$,用来表达对该区间包含未知参数的信心程度。

基本概念

  • 区间上下界:$\underline{\Theta}, \ \overline{\Theta}$
  • 置信区间:$[\underline{\Theta}, \ \overline{\Theta}]$
  • 风险: $α$
  • 置信度 confiance: $1 − α$
  • $p(\Theta \in I)=1-\alpha$

区间基本计算方法

此时不同的$α_1$, $α_2$的取法不同,最终的置信区间也不同

区间估计步骤

确定需要估计的参数

明确已知, 未知的参数

确定参数对应的$α$

给出点估计T

给出点估计T, 不需要做极大似然估计, 充分性完备性之类的验证, 只要给出一个还可以的估计即可

比如求和或者均值

构造参数的分布

对于估计$θ̂ → θ,$

分布函数$u(θ, θ̂)$

通过分布求出$t_1,t_2$

常用的置信区间求法-单一正态分布

正态分布期望的估计, 方差已知

对于正态分布$LG(m, σ)$已知,$α$是$risque$

取均值$\overline{X} \thicksim LG(m, \ \frac{\sigma}{\sqrt{n}})$

构造分布函数u:

其中,包含未知参数$m$, 估计量$\overline{X}$, 不包含其他未知量

研究区间, 由于正态分布对称, 取:

查表可得结果$\mathbf{a \sim U_{1-\frac{\alpha}{2}}}$

正态分布期望的估计, 方差未知

分布函数,参考统计基础的相应章节:

根据t分布表, 可查$P(|u| > a)$对应的$a$的值,得到结果:

正态分布方差的估计, m已知

分布函数:

卡方分布不是对称分布:

由于卡方分布给出的是大于的概率:

查表得到:

正态分布方差的估计, m未知:使用S2估计

分布函数:

除了卡方分布阶数, 其他都相同:

正态分布方差的估计, m未知:使用S * 2估计:

分布函数:

非正态分布

通过中心极限定理, 期望的分布可以近似为正态分布, 因此期望的估计的结果还可以使用, 但两个方差的结果不能使用

常用的置信区间求法-双正态分布

估计$m = m1 − m_2, σ{1}^2 = σ_{2}^2 = σ^2$未知

使用$D = \overline{X_1}-\overline{X_2}$来估计:

比较单一正态分布的分布函数:

另一方面:

分布函数:

估计$m = m1 − m_2, σ{1}^2 = σ_{2}^2 = σ^2$已知

分布函数

查表:

$σ{1}^2/σ{2}^2$的估计

分布函数:

考虑F分布不对称:

F分布的表给的是F(x) = 0.95的表:

$a$是通过$F$分布的性质$F{m, n(1 − α)} = 1/F{n, m(α)}$来获得的

比率的置信空间

$f = k/n → P$, $k$是$n$次实验成功的次数, 满足二项分布$B(n,p)$

$f$应该趋近于正态分布:$f \rightarrow LG(p,\sqrt{\frac{(1-p)p}{n}})$

有:

法1

解方程

法2

把p近似为1/2

法3

把p近似为f