统计基础

统计学基础包括了总体、抽样和取样、随机样本和观测值等概念。

统计量主要包括均值、方差和修正的方差,以及百分比。均值满足大数定理和中心极限定理。方差和修正的方差的期望分别等于σ²和n-1/nσ²。百分比作为二项分布,可以趋于正态分布。对于高斯随机样本,均值满足正态分布,方差满足卡方分布,均值和方差相互独立,均值和方差与T分布有关。

统计基础

基本概念

总体(population) 和个体

抽样和取样(Echantillonnage)

随机样本(échantillon aléatoire): 独立(indépendant), 同分布(de même loi de X), 称X为variable parente

随机样本是由n个随机变量组成, 这些变量一旦确定, 则变为随机样本的观测值(statistique d’un échantillon)

统计量

均值

定义

均值本身是随机变量

\[ \begin{aligned} &\overline{X} \triangleq \frac{1}{n}\sum_{i = 1}^nX_i\\ &E(\overline{X}) = E(X) = m\\ &V(\overline{X}) = \frac{V(X)}{n} = \frac{\sigma^2}{n}\end{aligned} \]

大数定理

均值满足条件:

\[ \begin{aligned} &E(\overline{X}) = m\\ &V(\overline{X}) \xrightarrow[n\rightarrow \infty]{} 0\end{aligned} \]

因此有:

\[ \begin{aligned} \overline{X}\xrightarrow[n\rightarrow \infty]{P}m\end{aligned} \]

中心极限定理

均值满足独立同分布, 故依分布收敛到一个正态分布:

\[ \begin{aligned} \frac{\overline{X}-m}{\sigma\sqrt{n}} \xrightarrow[n\rightarrow \infty]{loi} LG(0, 1)\end{aligned} \]

方差 S2

此方差是一个统计量, 非Variance

定义

\[ \begin{aligned} S^2 &\triangleq \frac{1}{n}\sum^n_{i = 1}(X_i-\overline{X})^2\\ & = \frac{1}{n}(\sum^n_{i = 1}X_i^2)-\overline{X}^2\\ & = \frac{1}{n}\sum^n_{i = 1}(X_i-m)^2-(\overline{X}-m)^2\end{aligned} \]

期望

$$ \[\begin{aligned} E(S^2) &= \frac{n-1}{n}\sigma^2\\ E(S^2) &= \frac{1}{n}\sum_{i = 1}^nE(X_i-m)^2-E(\overline{X}-m)^2\\ & = \frac{1}{n}\sum_{i = 1}^nV(X_i)-V(\overline{X})\\ & = \frac{1}{n}n\sigma^2 - \frac{\sigma^2}{n}\\ & = \frac{n-1}{n}\sigma^2\end{aligned}\]

$$

修正的方差 \(S^{*2}\)

我们希望它的期望能够像均值和期望的关系一样, 与Variance相等, 因此对方差进行了修正, 修正后期望等于σ2

\[ \begin{aligned} S^{*2} &\triangleq \frac{1}{n-1}\sum^n_{i = 1}(X_i-\overline{X})^2\end{aligned} \]

在本课程中, 除非表明S * 2, 均使用为修正的方差;但诸多中文教材使用修正的方差, 注意差别。

在卡西欧中, \(\mathbf{\sigma^2x\text{\textbf{和}}S^2x}\) 分别代表方差和修正的方差

百分比 Loi d’un pourcentage F

定义

假设X是某个实验中成功的次数:\(X \thicksim B(n, p)\)

则百分比:

\[ \begin{aligned} & F = B(n, p)/n\\ & E(F) = p\\ & V(F) = \frac{p(1-p)}{n}\end{aligned} \]

性质

  1. F作为二项分布, 本身可以趋于正态分布

  2. 考虑二项分布是伯努利分布的和, 这些伯努利分布独立同分布, 故根据中心极限定理, F趋于正态分布

\(F \rightarrow LG(p, \sqrt{\frac{p(1-p)}{n}})\)

高斯随机样本

对于随机样本\((X1, ..., Xn)\), 若\(X_i \thicksim LG(m, \sigma)\)则称此样本为高斯随机样本

高斯随机向量是由多个高斯随机变量组成的向量,其中每个随机变量都符合高斯分布,也被称为正态分布。高斯随机向量的每个元素都是独立的,也就是说,一个元素的值不会影响到其他元素的值。在多元统计分析中,高斯随机向量是一个重要的概念,它有许多重要的性质和应用。

二维高斯随机向量

二维方差-协方差矩阵

二维高斯随机向量的方差-协方差矩阵是一个2x2矩阵,表示两个随机变量的方差和协方差。在这个矩阵中,对角线上的元素表示每个随机变量的方差,非对角线上的元素表示两个随机变量之间的协方差。

\[ \Sigma = \left|\begin{array}{ccc} \sigma_1^2 & \rho\cdot \sigma_1 \sigma_2 \\ \rho \cdot \sigma_1 \sigma_2 & \sigma_2^2 \end{array}\right| \]

密度函数

\[ f(x_1,x_2) = \frac{1}{2 \pi \sigma_1 \sigma_2 \sqrt{1-\rho^2}} \exp \left\{-\frac{1}{2\left(1-\rho^2\right)}\left[\left(\frac{x_1-m_1}{\sigma_1}\right)^2-2 \rho \frac{\left(x_1-m_1\right)\left(x_2-m_2\right)}{\sigma_1 \sigma_2}+\left(\frac{x_2-m_2}{\sigma_2}\right)^2\right]\right\} \]

密度函数-中心分布

\[ f\left(x_1, x_2\right)=\frac{1}{\sigma_1 \sqrt{2 \pi}} \exp \left[-\left(\frac{x_1^2}{2 \sigma_1^2}\right)\right] \times \frac{1}{\sigma_2 \sqrt{2 \pi} \sqrt{1-\rho^2}} \exp \left[-\frac{\left(x_2-\rho \frac{\sigma_2}{\sigma_1} x_1\right)^2}{2 \sigma_2^2\left(1-\rho^2\right)}\right] \]

性质

  • 已知\(X_1\)\(X_2\)分布

\[ P(X_2|X_1) = L G\left(\rho \frac{\sigma_2}{\sigma_1} X_1, \sigma_2 \sqrt{1-\rho^2}\right) \]

  • 已知\(X_1\)\(X_2\)期望

\[ E\left(X_2 / X_1\right)=\rho \frac{\sigma_2}{\sigma_1} X_1 \]

期望和方差

均值与正态分布

高斯随机样本中, 均值满足正态分布:\(\overline{X} \thicksim LG(m, \frac{\sigma}{\sqrt{n}})\)

方差与卡方分布

\[ \frac{nS^2}{\sigma^2} \thicksim \chi^2_{n-1} \]

证明:

\[ \begin{aligned} E(S^2) &= \frac{1}{n}\sum_{i = 1}^nE(X_i-m)^2-E(\overline{X}-m)^2\\ \frac{nS^2}{\sigma^2}&=\sum\frac{X_i-m}{\sigma}^2-\frac{\overline{X}-m}{\sigma/\sqrt{n}}\\ &\thicksim\sum LG(0, 1)^2-LG(0, 1)^2\\ &\thicksim\chi^2_n-\chi^2_1\\ &\thicksim\chi^2_{n-1}\end{aligned} \]

对于修正的方差:

\[ \frac{(n-1)S^{*2}}{\sigma^2} \thicksim \chi^2_{n-1} \]

均值和方差相互独立

用处不多, 在此不再证明

均值和方差与T分布

\[ \frac{\overline{X}-m}{S/\sqrt{n-1}} \thicksim T(n-1) \]

证明:

\[ \begin{aligned} &\frac{\overline{X}-m}{\sigma/\sqrt{n}}\thicksim LG(0, 1)\\ &\frac{nS^2}{\sigma^2}\thicksim\chi^2_{n-1}\\ &\frac{\frac{\overline{X}-m}{\sigma/\sqrt{n}}}{\sqrt{(\frac{nS^2}{\sigma^2}\thicksim\chi^2_{n-1})/(n-1)}} \thicksim T(n-1)\end{aligned} \]

百分比

定义

  • 百分比的定义

    \[ F=\frac{X}{n},\ F\to LG(p,\sqrt{\frac{p(1-p)}{n}}) \]