估计
估计
文档讨论了估计参数的方法,包括区间估计的基本计算方法和步骤,以及常用的置信区间求法。这些方法适用于单一正态分布和双正态分布,包括已知和未知方差的情况。对于非正态分布,可以通过中心极限定理近似为正态分布进行估计。此外,还讨论了比率的置信空间的估计方法。
点估计和估计量的评价 Estimation
知道分布, 使用统计量估计某些参数。点估计使用具体的数值估计。
可以使用均值估计期望, S2估计方差, 频率估计概率
估计量 Estimateur
使用统计量T, 确定目标的某一个参数Θ, 这里, T时Θ的估计量。
估计量不是唯一的, 比如$S^2$和$S^{ 2}*$都可以用来估计方差。
目标是找到(收敛) 无偏, 最小方差估计, 具体定义解释如下
收敛性
估计量依概率收敛到目标参数
无偏估计 sans biais
偏的定义
- 偏:$E(T) − θ$
- 若 $E(T) − θ = 0$ 称为无偏, 否则称为有偏。在有偏的情况下, 若满足 $E(T)-\theta \xrightarrow[n\rightarrow \infty]{} 0$, 则称为渐进无偏
- 均值 是无偏的估计量
- 方差 S2 是有偏的估计量, 是渐进无偏的; 修正的方差 S * 2 是无偏的估计量
- 通过线性变换可以使有偏估计量无偏
准确性 présition
准确性没有唯一标准, 一般使用均方误差(quadratique moyenne):
似然函数 Vraisemblance
对于随机样本$(X_1, …, X_n)$, 有分布 $X \thicksim f(x, \theta)$, 对于$(X_1, …, X_n)$, 似然度定义如下:
完全统计量 statistique complete
一个指数族分布的充分统计量时完全的(complet)
Les statistiques exhaustives des familles exponentielles sont complètes.
充分统计量 statistique exhaustive
充分统计量 T 应该包含统计量T̃的全部信息, 如果T使充分统计量, 则其密度函数g(t, θ)满足:
也就是$L((\underline x), \theta)/g(t, \theta)$ 与 θ 无关:
充分统计量的单射(injective)还是充分统计量
Exemple 1
对于泊松分布P(λ):
其似然度:
考虑$T$是一个$xi$的函数, 且考虑质量函数计算难度和与自由度$\lambda$的关系, 选择 $T = \sum{i = 1}^{n}X_i$ 作为统计量, 有:
- T是泊松分布的和
将似然度里的相应部分替换为统计量T = t:有:
与λ无关, 说明统计量T包含了原分布中的所有信息, 是充分统计量
Exemple 2
$X \thicksim LG(m, \sigma)$, m已知, γ未知
其密度函数:
其似然:
因此选择统计量:
$T = \sum_{i = 1}^n({x_i-m})^2$
设$Y = T/σ^2$, 有:
得到T的密度函数:
随机变量函数的密度函数求法
无偏最小方差估计原理 meilleur estimateur
Théorème 1: 唯一性原理
无偏最小方差有唯一性
Théorème 2: Rao-Blackwell定理
对于$Θ$ ,$T$ 是一个无偏估计, $U$是充分统计量, 则:
$T^ = E(T|U)*$
也是一个无偏估计, 且 $V(T^) < V(T)*$
证明:
当$E(V(T|u)) = 0$时, 有$V(T) = V(T ^ )$, 此时有$T = f(u)*$
Théorème 3
如果存在充分统计量$u$, 则最小方差的无偏差估计$T$仅取决于$u$
Théorème 4
对于$Θ$, 如果$U$是完全充分统计量, $T^**$是一个依赖于$U$的无偏估计量, 则$T^**$是唯一的无偏最小方差估计
无偏最小方差估计找寻方法
- 找到充分统计量U:
- 找到似然函数
- 找到T
- 计算g(t, θ)
- 计算$\frac{L(\underline(x), \theta)}{g(t, \theta)}$
使用
Les statistiques exhaustives des familles exponentielles sont complètes
说明充分统计量是完全的的找到$T^ = f(U)$, 使得$T^**$无偏
最大似然函数法
找到$\widehat{\Theta}$, 使得:
具体的, 找到$\widehat{\Theta}$, 使得:
如果解出的$\widehat{\Theta}$是无偏的, 则是无偏最小方差估计
Exemple
对于正态分布$X \thicksim LG(m, \gamma)$, $m$未知, $γ$已知
其密度函数:
其似然:
对数后对m求导:
解得:
验证无偏, 故得到最佳估计
区间估计和置信区间评价方法 Estimation par intervalles
区间估计是一种统计推断的方法,它提供了一个可能包含未知参数的区间,而不是提供一个单一的点估计。这个区间被称为置信区间 I,并附带一个置信水平 $\alpha$,用来表达对该区间包含未知参数的信心程度。
基本概念
- 区间上下界:$\underline{\Theta}, \ \overline{\Theta}$
- 置信区间:$[\underline{\Theta}, \ \overline{\Theta}]$
- 风险: $α$
- 置信度 confiance: $1 − α$
- $p(\Theta \in I)=1-\alpha$
区间基本计算方法
此时不同的$α_1$, $α_2$的取法不同,最终的置信区间也不同
区间估计步骤
确定需要估计的参数
明确已知, 未知的参数
确定参数对应的$α$
给出点估计T
给出点估计T, 不需要做极大似然估计, 充分性完备性之类的验证, 只要给出一个还可以的估计即可
比如求和或者均值
构造参数的分布
对于估计$θ̂ → θ,$
分布函数$u(θ, θ̂)$
通过分布求出$t_1,t_2$
常用的置信区间求法-单一正态分布
正态分布期望的估计, 方差已知
对于正态分布$LG(m, σ)$已知,$α$是$risque$
取均值$\overline{X} \thicksim LG(m, \ \frac{\sigma}{\sqrt{n}})$
构造分布函数u:
其中,包含未知参数$m$, 估计量$\overline{X}$, 不包含其他未知量
研究区间, 由于正态分布对称, 取:
查表可得结果$\mathbf{a \sim U_{1-\frac{\alpha}{2}}}$
正态分布期望的估计, 方差未知
分布函数,参考统计基础的相应章节:
根据t分布表, 可查$P(|u| > a)$对应的$a$的值,得到结果:
正态分布方差的估计, m已知
分布函数:
卡方分布不是对称分布:
由于卡方分布给出的是大于的概率:
查表得到:
正态分布方差的估计, m未知:使用S2估计
分布函数:
除了卡方分布阶数, 其他都相同:
正态分布方差的估计, m未知:使用S * 2估计:
分布函数:
非正态分布
通过中心极限定理, 期望的分布可以近似为正态分布, 因此期望的估计的结果还可以使用, 但两个方差的结果不能使用
常用的置信区间求法-双正态分布
估计$m = m1 − m_2, σ{1}^2 = σ_{2}^2 = σ^2$未知
使用$D = \overline{X_1}-\overline{X_2}$来估计:
比较单一正态分布的分布函数:
另一方面:
分布函数:
估计$m = m1 − m_2, σ{1}^2 = σ_{2}^2 = σ^2$已知
分布函数
查表:
$σ{1}^2/σ{2}^2$的估计
分布函数:
考虑F分布不对称:
F分布的表给的是F(x) = 0.95的表:
$a$是通过$F$分布的性质$F{m, n(1 − α)} = 1/F{n, m(α)}$来获得的
比率的置信空间
$f = k/n → P$, $k$是$n$次实验成功的次数, 满足二项分布$B(n,p)$
$f$应该趋近于正态分布:$f \rightarrow LG(p,\sqrt{\frac{(1-p)p}{n}})$
有:
法1
解方程
法2
把p近似为1/2
法3
把p近似为f