估计

文档讨论了估计参数的方法，包括区间估计的基本计算方法和步骤，以及常用的置信区间求法。这些方法适用于单一正态分布和双正态分布，包括已知和未知方差的情况。对于非正态分布，可以通过中心极限定理近似为正态分布进行估计。此外，还讨论了比率的置信空间的估计方法。

点估计和估计量的评价 Estimation

知道分布, 使用统计量估计某些参数。点估计使用具体的数值估计。

可以使用均值估计期望, S2估计方差, 频率估计概率

估计量 Estimateur

使用统计量T, 确定目标的某一个参数Θ, 这里, T时Θ的估计量。

估计量不是唯一的, 比如$*S^2*$和$*S^{ * 2}*$都可以用来估计方差。

目标是找到(收敛) 无偏, 最小方差估计, 具体定义解释如下

收敛性

估计量依概率收敛到目标参数

\[ \lim _{n \rightarrow \infty} P(|T-\theta|>\varepsilon)=0 \]

无偏估计 sans biais

偏的定义

偏：$*E(T) − θ*$
若 $*E(T) − θ = 0*$ 称为无偏, 否则称为有偏。在有偏的情况下, 若满足 $E(T)-\theta \xrightarrow[n\rightarrow \infty]{} 0$, 则称为渐进无偏
均值是无偏的估计量
方差 S2 是有偏的估计量, 是渐进无偏的； **修正的方差 S * 2** 是无偏的估计量
通过线性变换可以使有偏估计量无偏

准确性 présition

准确性没有唯一标准, 一般使用均方误差(quadratique moyenne)：

\[ \begin{aligned} \ \ \ \ &E((T-\theta)^2) \\ &= E((T-E(T)+E(T)-\theta)^2)\\ & = E[(T-E(T))^2]+E[(E(T)-\theta)^2]\\ &+2E[(T-E(T))(E(T)-\theta)]\\ & = V(T) + (E(T)-\theta)^2\\ & \xrightarrow{sans biais} V(T)\end{aligned} \]

似然函数 Vraisemblance

对于随机样本$(X_1, ..., X_n)$, 有分布 $X \thicksim f(x, \theta)$, 对于$(X_1, ..., X_n)$, 似然度定义如下:

\[ \begin{aligned} &L((\underline x), \theta) = \prod \limits_{i=0}^nf(x_i, \theta)\\ &L((\underline x), \theta) = \prod \limits_{i=0}^nP(X_i = x_i)\end{aligned} \]

完全统计量 statistique complete

一个指数族分布的充分统计量时完全的(complet)

Les statistiques exhaustives des familles exponentielles sont complètes.

充分统计量 statistique exhaustive

充分统计量 T 应该包含统计量T̃的全部信息, 如果T使充分统计量, 则其密度函数g(t, θ)满足：

\[ \begin{aligned} L((\underline x), \theta) = g(t, \theta) * h(x)\end{aligned} \]

也就是$L((\underline x), \theta)/g(t, \theta)$ 与 θ 无关:

\[ L((\underline x), \theta)/g(t, \theta) \ntriangleright \theta \]

充分统计量的单射(injective)还是充分统计量

Exemple 1

对于泊松分布P(λ):

\[ \begin{aligned} P(X_i = x_i) = \frac{e^{-\lambda} \lambda^{x_i}}{x_i!}\end{aligned} \]

其似然度:

\[ \begin{aligned} L((\underline x), \lambda) &= \prod_{i = 1}^nP(X_i = x_i)\\ & = e^{-n\lambda}\frac{\lambda^{\sum_{i = 1}^{n}x_i}}{\prod_{i = 1}^nx_i!}\end{aligned} \]

考虑$T$是一个$x_i$的函数, 且考虑质量函数计算难度和与自由度$\lambda$的关系, 选择 $T = \sum_{i = 1}^{n}X_i$ 作为统计量, 有:

\[ \begin{aligned} & T \thicksim P(n\lambda)\\ & P(T = t, n\lambda) = \frac{e^{-n\lambda} (n\lambda)^{t}}{t!} \end{aligned} \]

T是泊松分布的和

将似然度里的相应部分替换为统计量T = t:有:

\[ L((\underline x), \lambda)= e^{-n\lambda}\frac{\lambda^{t}}{\prod_{i = 1}^nx_i!} \]

\[ \begin{aligned} & \frac{L((\underline x), \lambda)}{P(T = t, \lambda)} = \frac{t!}{n^t\prod_{i = 1}^nx_i!}\end{aligned} \]

与λ无关, 说明统计量T包含了原分布中的所有信息, 是充分统计量

Exemple 2

$X \thicksim LG(m, \sigma)$, m已知, γ未知

其密度函数:

\[ f(x) = \frac{1}{\sigma \sqrt{2\pi}}exp(-\frac{1}{2}(\frac{x-m}{\sigma})^2) \]

其似然:

\[ \begin{aligned} L((\underline x), \sigma) = \frac{1}{\sigma^n \sqrt{2\pi}^n}exp(-\frac{1}{2}\sum_{i = 1}^n(\frac{x_i-m}{\sigma})^2)\end{aligned} \]

因此选择统计量:

$T = \sum_{i = 1}^n({x_i-m})^2$

设$*Y = T/σ^2*$, 有:

\[ \begin{aligned} Y &= \sum_{i = 1}^n(\frac{x_i-m}{\sigma})^2\\ & \thicksim \chi^2_n\end{aligned} \]

得到T的密度函数:

\[ \begin{aligned} &T = \sigma^2Y\\ &g(t) = h(\frac{t}{\sigma^2})\frac{1}{\sigma^2}\\ &g(t, \sigma) = \frac{1}{2^{n/2}\Gamma(n/2)}(\frac{t}{\sigma^2})^2e^{-\frac{t}{2\sigma^2}}\frac{1}{\sigma^2}\end{aligned} \]

随机变量函数的密度函数求法

\[ \begin{aligned} P_Y(y) = P_x(x)\frac{dx}{dy}\end{aligned} \]

无偏最小方差估计原理 meilleur estimateur

Théorème 1: 唯一性原理

无偏最小方差有唯一性

Théorème 2: Rao-Blackwell定理

对于$*Θ*$ ，$T$ 是一个无偏估计, $U$是充分统计量, 则：

$*T^* = E(T|U)*$

也是一个无偏估计, 且 $*V(T^*) < V(T)*$

证明：

\[ \begin{aligned} &E(T*) = E(E(T|U)) = E(T) = \theta\\ &V(T) = E(V(T|u))+V(E(T|U)) \ge V(T*)\end{aligned} \]

当$*E(V(T|u)) = 0*$时, 有$*V(T) = V(T ^* )*$, 此时有$*T = f(u)*$

Théorème 3

如果存在充分统计量$u$, 则最小方差的无偏差估计$T$仅取决于$u$

Théorème 4

对于$*Θ*$, 如果$U$是完全充分统计量, $*T^**$是一个依赖于$U$的无偏估计量, 则$*T^**$是唯一的无偏最小方差估计

无偏最小方差估计找寻方法

找到充分统计量U:
- 找到似然函数
- 找到T
- 计算g(t, θ)
- 计算$\frac{L(\underline(x), \theta)}{g(t, \theta)}$

使用Les statistiques exhaustives des familles exponentielles sont complètes说明充分统计量是完全的的
找到$*T^* = f(U)*$, 使得$*T^**$无偏

最大似然函数法

找到$*\widehat{\Theta}*$, 使得:

\[ \begin{aligned} L((\underline x), \widehat{\Theta}) = max(L((\underline x), \Theta))\end{aligned} \]

具体的, 找到$*\widehat{\Theta}*$, 使得:

\[ \begin{aligned} \frac{dlnL((\underline x), \Theta)}{d\Theta} = 0\end{aligned} \]

如果解出的$*\widehat{\Theta}*$是无偏的, 则是无偏最小方差估计

Exemple

对于正态分布$X \thicksim LG(m, \gamma)$, $m$未知, $*γ*$已知

其密度函数:

\[ f(x) = \frac{1}{\sigma \sqrt{2\pi}}exp(-\frac{1}{2}(\frac{x-m}{\sigma})^2) \]

其似然:

\[ \begin{aligned} L((\underline x), \sigma) = \frac{1}{\sigma^n \sqrt{2\pi}^n}exp(-\frac{1}{2}\sum_{i = 1}^n(\frac{x_i-m}{\sigma})^2)\end{aligned} \]

对数后对m求导:

\[ \begin{aligned} \frac{\partial lnL}{\partial m} = \frac{n}{\sigma^2}(\frac{1}{n}\sum x_i-m) = 0\end{aligned} \]

解得:

\[ \begin{aligned} &\widehat m = \overline{X}\\ &E(\widehat m) = E(\overline{X}) = m\end{aligned} \]

验证无偏, 故得到最佳估计

区间估计和置信区间评价方法 Estimation par intervalles

区间估计是一种统计推断的方法，它提供了一个可能包含未知参数的区间，而不是提供一个单一的点估计。这个区间被称为置信区间 I，并附带一个置信水平 $\alpha$，用来表达对该区间包含未知参数的信心程度。

基本概念

区间上下界:$\underline{\Theta}, \ \overline{\Theta}$
置信区间:$[\underline{\Theta}, \ \overline{\Theta}]$
风险: $*α*$
置信度 confiance: $1 − α$
$p(\Theta \in I)=1-\alpha$

区间基本计算方法

\[ \begin{aligned} &p(T+\widetilde{t_1} \le \Theta \le T+\widetilde{t_2} ) = 1-\alpha\\ &P(\widetilde{t_1} \le \Theta-T \le \widetilde{t_2} ) = 1-\alpha\end{aligned} \]

\[ \begin{aligned} &P(\widetilde{t_1} \le \Theta-T \le \widetilde{t_2} ) = 1-\alpha\\ & = P(\Theta-Y \le \widetilde{t_2})-P(\Theta-Y \le \widetilde{t_1})\\ & = 1-\alpha_1-\alpha_2\\ & = 1-\alpha\end{aligned} \]

此时不同的$*α_1*$, $*α_2*$的取法不同,最终的置信区间也不同

区间估计步骤

确定需要估计的参数

明确已知, 未知的参数

确定参数对应的$*α*$

给出点估计T

给出点估计T, 不需要做极大似然估计, 充分性完备性之类的验证, 只要给出一个还可以的估计即可

比如求和或者均值

构造参数的分布

对于估计$*θ̂ → θ,*$

分布函数$*u(θ, θ̂)*$

通过分布求出$t_1,t_2$

常用的置信区间求法-单一正态分布

正态分布期望的估计, 方差已知

对于正态分布$*LG(m, σ)*$已知,$*α*$是$risque$

取均值$\overline{X} \thicksim LG(m, \ \frac{\sigma}{\sqrt{n}})$

构造分布函数u:

\[ \begin{aligned} u = \frac{\overline{X}-m}{\sigma/\sqrt{n}}\end{aligned}\thicksim U \]

其中,包含未知参数$m$, 估计量$\overline{X}$, 不包含其他未知量

研究区间, 由于正态分布对称, 取:

\[ \begin{aligned} &P(-a \le u \le a) = 1-\alpha\\ &\Phi(a)-\Phi(-a) = 1-\alpha\\ &\Phi(a) = 1-\frac{\alpha}{2}\end{aligned} \]

查表可得结果$\mathbf{a \sim U_{1-\frac{\alpha}{2}}}$

$$ \[\begin{aligned} &P(-a\cdot(\sigma/\sqrt{n})+\overline{X} \le m \le a\cdot(\sigma/\sqrt{n})+\overline{X}) = 1-\alpha\end{aligned}\]

正态分布期望的估计, 方差未知

分布函数，参考统计基础的相应章节:

\[ \begin{aligned} &\mathbf{u = \frac{\overline{X}-m}{S/\sqrt{n-1}}\thicksim t(n-1)}\\ &P(-a \le u \le a) = 1-\alpha\\ &P(|u| \le a) = 1-\alpha\\ &P(|u| > a) = \alpha\end{aligned} \]

根据t分布表, 可查$*P(|u| > a)*$对应的$a$的值,得到结果:

\[ \begin{aligned} &\mathbf{a = t_\alpha^{n-1}}\\ &P(-a(\frac{S}{\sqrt{n-1}})+\overline{X} \le m \le a(\frac{S}{\sqrt{n-1}})+\overline{X}) = 1-\alpha\end{aligned} \]

正态分布方差的估计, m已知

分布函数:

\[ \begin{aligned} &T = \frac{1}{n}\sum_{i = 1}^n(X_i-m)^2 \rightarrow \sigma^2\\ &u = \frac{nT}{\sigma^2} \thicksim \chi^2(n)\end{aligned} \]

卡方分布不是对称分布:

\[ \begin{aligned} &P(a \le u \le b) = 1-\alpha\\ &\left\{ \begin{aligned} &P(u \le b) = 1-\frac{\alpha}{2}\\ &P(u \le a) = \frac{\alpha}{2} \end{aligned} \right.\end{aligned} \]

由于卡方分布给出的是大于的概率:

\[ \begin{aligned} &\left\{ \begin{aligned} &P(u > b) = \frac{\alpha}{2}\\ &P(u > a) = 1-\frac{\alpha}{2} \end{aligned} \right.\\ \end{aligned} \]

查表得到:

\[ \begin{aligned} &\left\{ \begin{aligned} &a = \chi^2_{1-\alpha/2}(n)\\ &b = \chi^2_{\alpha/2}(n) \end{aligned} \right.\\ &[\frac{n^T}{b},\frac{n^T}{a}]\end{aligned} \]

正态分布方差的估计, m未知：使用S2估计

分布函数:

\[ \begin{aligned} u = \frac{nS^2}{\sigma^2} \thicksim \chi^2(n-1)\end{aligned} \]

除了卡方分布阶数, 其他都相同:

\[ \begin{aligned} &\left\{ \begin{aligned} &a = \chi^2_{1-\alpha/2}(n-1)\\ &b = \chi^2_{\alpha/2}(n-1) \end{aligned} \right.\\ &[\frac{nS^2}{b},\frac{nS^2}{a}]\end{aligned} \]

正态分布方差的估计, m未知：使用S * 2估计:

分布函数:

\[ \begin{aligned} u = \frac{(n-1)S^2}{\sigma^2} \thicksim \chi^2(n-1)\end{aligned} \]

\[ \begin{aligned} &\left\{ \begin{aligned} &a = \chi^2_{1-\alpha/2}(n-1)\\ &b = \chi^2_{\alpha/2}(n-1) \end{aligned} \right.\\ & [\frac{(n-1)S^{*2}}{b},\frac{(n-1)S^{*2}}{a}]\end{aligned} \]

非正态分布

通过中心极限定理, 期望的分布可以近似为正态分布, 因此期望的估计的结果还可以使用, 但两个方差的结果不能使用

常用的置信区间求法-双正态分布

\[ X \thicksim LG(m_1,\sigma_1), Y \thicksim LG(m_2, \sigma_2) \]

估计$m = m_1 − m_2, σ_{1}^2 = σ_{2}^2 = σ^2$未知

使用$D = \overline{X_1}-\overline{X_2}$来估计:

\[ \begin{aligned} D = \overline{X_1}-\overline{X_2} \thicksim LG(m_1-m_2,\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}})\end{aligned} \]

比较单一正态分布的分布函数:

\[ \begin{aligned} \frac{D-m}{\sigma\sqrt{\frac{1}{n^2}+\frac{1}{n^2}}} \thicksim LG(0,1)\end{aligned} \]

另一方面:

\[ \begin{aligned} &\frac{nS^2}{\sigma^2} = \frac{\sum(X_i-\overline{X_1})^2}{\sigma^2}\thicksim\chi^2(n_1-1)\\ &\frac{nS^2}{\sigma^2} = \frac{\sum(X_i-\overline{X_2})^2}{\sigma^2}\thicksim\chi^2(n_2-1)\end{aligned} \]

分布函数:

\[ \begin{aligned} u = &\frac{D-m}{\sqrt{\sum(X_i-\overline{X_1})^2+\sum(X_i-\overline{X_2})^2}}\times\frac{\sqrt{n_1+n_2-2}}{\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\\ \thicksim& t(n_1+n_2-2)\\ a = & t_\alpha(n_1+n_2-2)\end{aligned} \]

估计$m = m_1 − m_2, σ_{1}^2 = σ_{2}^2 = σ^2$已知

分布函数

\[ \begin{aligned} \frac{D-m}{\sigma\sqrt{\frac{1}{n^2}+\frac{1}{n^2}}} \thicksim LG(0,1)\end{aligned} \]

查表:

\[ \begin{aligned} &a = U_{1-\alpha/2}\\ &[D-a\sqrt{\frac{1}{n^2}+\frac{1}{n^2}},D+a\sqrt{\frac{1}{n^2}+\frac{1}{n^2}} ]\end{aligned} \]

$σ_{1}^2/σ_{2}^2$的估计

分布函数:

\[ \begin{aligned} u = &\frac{S_1^{*2}/\sigma_1^2}{S_2^{*2}/\sigma_2^2} \thicksim F(n_1-1,n_2-2)\end{aligned} \]

考虑F分布不对称:

\[ \begin{aligned} &\left\{ \begin{aligned} &P(u \le b) = 1-\alpha\\ &P(u \le a) = \alpha \end{aligned} \right.\end{aligned} \]

F分布的表给的是F(x) = 0.95的表:

\[ \begin{aligned} &\left\{ \begin{aligned} &b = F_{1-\alpha/2}(n_1-1, n_2-1)\\ &a = \frac{1}{F_{1-\alpha/2}(n_1-1,n_2-1)} \end{aligned} \right.\end{aligned} \]

$a$是通过$F$分布的性质$F_{m, n(1 − α)} = 1/F_{n, m(α)}$来获得的

比率的置信空间

$*f = k/n → P*$, $k$是$n$次实验成功的次数, 满足二项分布$B(n,p)$

$f$应该趋近于正态分布:$f \rightarrow LG(p,\sqrt{\frac{(1-p)p}{n}})$

有:

\[ \begin{aligned} &P(\frac{|P-f|}{\sqrt{\frac{p(1-p)}{n}}} \le a) = 1-\alpha\\ &a = U_{1-\frac{\alpha}{2}}\end{aligned} \]

法1

解方程

\[ \begin{aligned} &(p-f)^2 \le a^2\frac{p(1-p)}{n}\end{aligned} \]

法2

把p近似为1/2

\[ \begin{aligned} &[f-a\sqrt{\frac{p(1-p)}{n}},f+a\sqrt{\frac{p(1-p)}{n}}]\\ &[f-a\sqrt{\frac{0.5(1-0.5)}{n}},f+a\sqrt{\frac{0.5(1-0.5)}{n}}]\end{aligned} \]

法3

把p近似为f

\[ \begin{aligned} &[f-a\sqrt{\frac{p(1-p)}{n}},f+a\sqrt{\frac{p(1-p)}{n}}]\\ &[f-a\sqrt{\frac{f(1-f)}{n}},f+a\sqrt{\frac{f(1-f)}{n}}]\end{aligned} \]

估计

点估计和估计量的评价 Estimation

估计量 Estimateur

收敛性

无偏估计 sans biais

偏的定义

准确性 présition

似然函数 Vraisemblance

完全统计量 statistique complete

充分统计量 statistique exhaustive

Exemple 1

Exemple 2

无偏最小方差估计原理 meilleur estimateur

Théorème 1: 唯一性原理

Théorème 2: Rao-Blackwell定理

Théorème 3

Théorème 4

无偏最小方差估计找寻方法

最大似然函数法

Exemple

区间估计和置信区间评价方法 Estimation par intervalles

基本概念

区间基本计算方法

区间估计步骤

确定需要估计的参数

给出点估计T

构造参数的分布

常用的置信区间求法-单一正态分布

正态分布期望的估计, 方差已知

正态分布期望的估计, 方差未知

正态分布方差的估计, m已知

正态分布方差的估计, m未知：使用S2估计

正态分布方差的估计, m未知：使用S * 2估计:

非正态分布

常用的置信区间求法-双正态分布

估计\(*m = m_1 − m_2, σ_{1}^2 = σ_{2}^2 = σ^2*\)未知

估计\(*m = m_1 − m_2, σ_{1}^2 = σ_{2}^2 = σ^2*\)已知

\(*σ_{1}^2/σ_{2}^2*\)的估计

比率的置信空间

法1

法2

法3

估计\(m = m_1 − m_2, σ_{1}^2 = σ_{2}^2 = σ^2\)未知

估计\(m = m_1 − m_2, σ_{1}^2 = σ_{2}^2 = σ^2\)已知

\(σ_{1}^2/σ_{2}^2\)的估计