统计基础

统计学基础包括了总体、抽样和取样、随机样本和观测值等概念。

统计量主要包括均值、方差和修正的方差,以及百分比。均值满足大数定理和中心极限定理。方差和修正的方差的期望分别等于σ²和n-1/nσ²。百分比作为二项分布,可以趋于正态分布。对于高斯随机样本,均值满足正态分布,方差满足卡方分布,均值和方差相互独立,均值和方差与T分布有关。

统计基础

基本概念

总体(population) 和个体

抽样和取样(Echantillonnage)

随机样本(échantillon aléatoire): 独立(indépendant), 同分布(de même loi de X), 称X为variable parente

随机样本是由n个随机变量组成, 这些变量一旦确定, 则变为随机样本的观测值(statistique d’un échantillon)

统计量

均值

定义

均值本身是随机变量

大数定理

均值满足条件:

因此有:

中心极限定理

均值满足独立同分布, 故依分布收敛到一个正态分布:

方差 S2

此方差是一个统计量, 非Variance

定义

期望

修正的方差 $S^{*2}$

我们希望它的期望能够像均值和期望的关系一样, 与Variance相等, 因此对方差进行了修正, 修正后期望等于σ2

在本课程中, 除非表明S * 2, 均使用为修正的方差;但诸多中文教材使用修正的方差, 注意差别。

在卡西欧中, $\mathbf{\sigma^2x\text{\textbf{和}}S^2x}$ 分别代表方差和修正的方差

百分比 Loi d’un pourcentage F

定义

假设X是某个实验中成功的次数:$X \thicksim B(n, p)$

则百分比:

性质

  1. F作为二项分布, 本身可以趋于正态分布

  2. 考虑二项分布是伯努利分布的和, 这些伯努利分布独立同分布, 故根据中心极限定理, F趋于正态分布

$F \rightarrow LG(p, \sqrt{\frac{p(1-p)}{n}})$

高斯随机样本

对于随机样本$(X1, …, Xn)$, 若$X_i \thicksim LG(m, \sigma)$则称此样本为高斯随机样本

高斯随机向量是由多个高斯随机变量组成的向量,其中每个随机变量都符合高斯分布,也被称为正态分布。高斯随机向量的每个元素都是独立的,也就是说,一个元素的值不会影响到其他元素的值。在多元统计分析中,高斯随机向量是一个重要的概念,它有许多重要的性质和应用。

二维高斯随机向量

二维方差-协方差矩阵

二维高斯随机向量的方差-协方差矩阵是一个2x2矩阵,表示两个随机变量的方差和协方差。在这个矩阵中,对角线上的元素表示每个随机变量的方差,非对角线上的元素表示两个随机变量之间的协方差。

密度函数

密度函数-中心分布

性质

  • 已知$X_1$的$X_2$分布
  • 已知$X_1$的$X_2$期望

期望和方差

均值与正态分布

高斯随机样本中, 均值满足正态分布:$\overline{X} \thicksim LG(m, \frac{\sigma}{\sqrt{n}})$

方差与卡方分布

证明:

对于修正的方差:

均值和方差相互独立

用处不多, 在此不再证明

均值和方差与T分布

证明:

百分比

定义

  • 百分比的定义