Chapter4 概率极限理论

4.1 经典概率极限理论

以下三个定理都只涉及Bernoulli随机变量。

$$X\sim B(n,p)$$

$$P(X=k)=C_n^kp^k(1-p)^{n-k}$$

$$EX=np$$

$$Var(X)=np(1-p)$$

Bernoulli大数律

若$S_n\sim B(n,p)$，则

$$\frac{S_n}{n}\stackrel{P}\rightarrow p$$

即对于$\forall \varepsilon>0$，都有

$$\lim\limits_{n\rightarrow\infty}P(|\frac{S_n}{n}-p|>\varepsilon)=0$$

意义：随着试验次数的增大，事件的频率逐步稳定到事件的概率。

De Moivre-Laplace中心极限定理

若$S_n\sim B(n,p)$，则

$$\frac{S_n-np}{\sqrt{np(1-p)}}\stackrel{d}\rightarrow N(0,1)$$

即

$$\lim\limits_{n\rightarrow\infty}P(\frac{S_n-np}{\sqrt{np(1-p)}}\leqslant x)=\Phi(x)$$

其中，左边是$S_n$规范化后的分布函数，右边是标准正态分布的分布函数$\int_{-\infty}^x\frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}}dt$。

意义：给出近似计算公式：

$$P(a\leqslant S_n\leqslant b)\asymp\Phi(\frac{b-np}{\sqrt{np(1-p)}})-\Phi(\frac{a-np}{\sqrt{np(1-p)}})$$

Poisson极限定理

若$S_n\sim B(n,p_n)$，$np_n\rightarrow\lambda$，且$0<\lambda<1$，则对于$\forall k\in N$，都有

$$\lim\limits_{n\rightarrow\infty}P(S_n=k)=\frac{\lambda^k}{k!}e^{-\lambda}$$

Proof

$P(S_n=k)=\frac{n!}{k!(n-k)!}(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^k$
$=\frac{\lambda^k}{k!}\cdot\frac{n(n-1)(n-2)···(n-k+1)}{n^k}\cdot\frac{(1-\frac{\lambda}{n})^n}{(1-\frac{\lambda}{n})^k}$
$\rightarrow\frac{\lambda^k}{k!}\cdot1\cdot\frac{e^{-\lambda}}{1}$，$n\rightarrow\infty$
因此，对于二项分布，当$n$很大，$p$很小，而$np$不很大时，可近似取$np=\lambda$，从而将复杂的二项分布计算转换为相对比较简单的Poisson分布计算。

4.2 经典极限定理的推广

三个定理分别从Bernoulli随机变量推广到任意随机变量。

Chebyschev大数律

设$\xi_k,k\geqslant 1$是一列随机变量，且$E(\xi_k)=\mu$。记$S_n=\sum\limits_{k=1}^n\xi_k$，若

$$\lim\limits_{n\rightarrow \infty}\frac{Var(S_n)}{n^2}=0$$

则

$$\frac{S_n}{n}\stackrel{P}\rightarrow\mu$$

更一般地，设$\xi_k,k\geqslant 1$是一列随机变量，且$E(\xi_k)=\mu_k$。记$S_n=\sum\limits_{k=1}^n\xi_k$，若

$$\lim\limits_{n\rightarrow \infty}\frac{Var(S_n)}{n^2}=0$$

则

$$\frac{S_n}{n}\stackrel{P}\rightarrow\frac{\sum\limits_{k=1}^n\mu_k}{n} $$

意义：样本均值渐近总体均值，且没有独立性要求。

Khinchine 大数律

设$\xi_k,k\geqslant 1$是一列独立同分布的随机变量，且$E(\xi_k)=\mu$。记$S_n=\sum\limits_{k=1}^n\xi_k$，则

$$\frac{S_n}{n}\stackrel{P}\rightarrow\mu$$

Levy-Feller中心极限定理

设$\xi_k,k\geqslant 1$是一列独立同分布的随机变量，且$E(\xi_k)=\mu$，$Var(\xi_k)=\sigma^2$。记$S_n=\sum\limits_{k=1}^n\xi_k$，则

$$\frac{S_n-n\mu}{\sigma\sqrt{n}}\stackrel{d}\rightarrow N(0,1)$$

Example

例1：设$\xi_k$是一列独立同分布的随机变量，服从如下分布：
$P(\xi_k=0)=P(\xi_k=-1)=P(\xi_k=1)=\frac{1}{3}$
记$S_n=\sum\limits_{k=1}^n\xi_k$，求$P(S_{10000}>100)$。

$E(\xi_k)=0$，$Var(\xi_k)=\frac{2}{3}$
$P(S_{10000}>100)=1-P(S_{10000}\leqslant 100)$
$=1-P(\frac{S_{10000}}{\sqrt{10000\times\frac{2}{3}}}\leqslant\frac{100}{\sqrt{10000\times\frac{2}{3}}})$
$=1-\Phi(\frac{100}{81.65})$
$=0.11$

例2：某车间有200台车床，工作时每台车床60%的时间再开动，每台开动时耗电1千瓦，应供给多少电力才能有0.999把握保证正常生产？

$E(\xi_k)=0.6$，$Var(\xi_k)=0.6\times 0.4$
$P(S_{200}<x)=0.999$
$P(S_{200}<x)=P(\frac{S_{200}-200\times 0.6}{\sqrt{200\times 0.6\times 0.4}}<\frac{x-200\times 0.6}{\sqrt{200\times 0.6\times 0.4}})$
$=\Phi(\frac{x-120}{\sqrt{48}})$
$=0.999$
$x\approx 141$
应供电141千瓦。

Lyapunov中心极限定理

设$\xi_k,k\geqslant 1$是一列独立的随机变量（不一定同分布），且$E(\xi_k)=\mu_k$，$Var(\xi_k)=\sigma_k^2$，记$S_n=\sum\limits_{k=1}^n\xi_k$，若$\exists\delta>0$，使得

$$\lim\limits_{n\rightarrow\infty}\frac{\sum\limits_{k=1}^nE(|\xi_k-\mu_k|^{2+\delta})}{(\sum\limits_{k=1}^n\sigma_k^2)^{1+\frac{\delta}{2}}}=0$$

则

$$\frac{S_n-\sum\limits_{k=1}^{n}\mu_k}{\sqrt{\sum\limits_{k=1}^n\sigma_k^2}}\stackrel{d}\rightarrow N(0,1)$$

4.3 随机变量的收敛性

依概率收敛

$(\Omega,\Sigma,P)$是一个概率空间，$X$和$X_n,n\geqslant1$是随机变量，若对于$\forall\varepsilon>0$，都有

$$\lim\limits_{n\rightarrow\infty}P(|X_n-X|>\varepsilon)=0$$

则称$X_n$依概率收敛到$X$，记作

$$X_n\stackrel{P}\rightarrow X$$

极限唯一性：

若$X_n\stackrel{P}\rightarrow X$，$X_n\stackrel{P}\rightarrow Y$，则

$$P(X=Y)=1$$

判别法则：

若$\exists r>0$，使得

$$\lim\limits_{n\rightarrow\infty}E(|X_n-X|^r)=0$$

则

$$X_n\stackrel{P}\rightarrow X$$

运算性质：

若$X_n\stackrel{P}\rightarrow X$，$Y_n\stackrel{P}\rightarrow Y$，则

$X_n\pm Y_n\stackrel{P}\rightarrow X\pm Y$
$X_n\cdot Y_n\stackrel{P}\rightarrow X\cdot Y$
若$P(Y\neq 0)=1$，则$\frac{X_n}{Y_n}\stackrel{P}\rightarrow\frac{X}{Y}$
若$f:R\mapsto R$是连续映射，则$f(X_n)\stackrel{P}\rightarrow f(X)$

Example

设$\xi_k$独立同分布，服从$[0,1]$上的均匀分布，记$\eta_n=(\prod\limits_{k=1}^n\xi_k)^{\frac{1}{n}}$，求证：$\eta_n\stackrel{P}\rightarrow C$，$n\rightarrow \infty$。

$\log\eta_n=\frac{1}{n}\sum\limits_{k=1}^n\log\xi_k$
由Chebyschev大数律：
$\frac{1}{n}\sum\limits_{k=1}^n\log\xi_k\stackrel{P}\rightarrow E(\log\xi_1)=\int_0^1\log xdx=-1$
因此$\log \eta_n\stackrel{P}\rightarrow-1$
$\eta_n=e^{\log\eta_n}\stackrel{P}\rightarrow e^{-1}$
几何平均与算数平均的关系

依分布收敛

$(\Omega,\Sigma,P)$是一个概率空间，$X$和$X_n,n\geqslant1$是随机变量，$F$，$F_n,n\geqslant 1$是对应的分布函数，若对于$F$的任意连续点$x$

$$F_n(x)\rightarrow F(x)$$

则称$X_n$依分布收敛到$X$，记作

$$X_n\stackrel{d}\rightarrow X$$

依概率收敛和依分布收敛的关系：

依概率收敛意味着依分布收敛；依分布收敛并不意味着依概率收敛。

判别法则：Levy连续性定理

设$X,X_n$是一列随机变量，具有特征函数$\varphi,\varphi_n$，则

$$X_n\stackrel{d}\rightarrow X\Leftrightarrow \varphi_n(t)\rightarrow\varphi(t)$$

另一种形式：

设$X_n$是一列随机变量，具有特征函数$\varphi_n(t)$，若

$$\varphi(t)\rightarrow\varphi(t),~\forall t\in R$$

且$\varphi$在0处连续，则$\varphi$一定是特征函数，对应的随机变量为$X$，那么

$$X_n\stackrel{d}\rightarrow X$$

运算性质：

若$X_n\stackrel{d}\rightarrow X$，$a_n\rightarrow a$，$b_b\rightarrow b$，则

$$a_nX_n+b_n\stackrel{d}\rightarrow aX+b$$

若$X_n\stackrel{d}\rightarrow X$，$Y_n\stackrel{P}\rightarrow c$，则

$$X_n\cdot Y_n\stackrel{d}\rightarrow cX$$

若$f$是连续映射，$X_n\stackrel{d}\rightarrow X$，则

$$f(X_n)\stackrel{d}\rightarrow f(X)$$

Example

设$\xi_k$是一列独立同分布的随机变量，$P(\xi_k=\pm 1)=\frac{1}{2}$。定义$U_n=\sum\limits_{k=1}^n\frac{\xi_k}{2^k}$，求证：$U_n\stackrel{d}\rightarrow U\sim U(-1,1)$。

计算$U_n$的特征函数。
$\varphi_n(t)=E(e^{itU_n})$
$=\prod\limits_{k=1}^E(e^{it\frac{\xi_k}{2^k}})$
$=\prod\limits_{k=1}^n[\frac{1}{2}(e^{\frac{it}{2^k}}+e^{-\frac{it}{2^k}})]$
$=\prod\limits_{k=1}^n\cos(\frac{t}{2^k})$
$=\frac{1}{\sin(\frac{t}{2^n})}\prod\limits_{k=1}^n\cos(\frac{t}{2^k})\cdot \sin(\frac{t}{2^n})$
$=\frac{\sin t}{2^n\sin(\frac{t}{2^n})}\rightarrow\frac{\sin t}{t}$
计算$U$的特征函数。
$\varphi(t)=E(e^{itU})=\frac{1}{2}\int_{-1}^1e^{itx}dx=\frac{\sin t}{t}$
因此
$\lim\limits_{n\rightarrow\infty}\varphi_n(t)=\varphi(t)$
由Levy连续性定理：$U_n\stackrel{d}\rightarrow U$

几乎处处收敛

$(\Omega,\Sigma,P)$是一个概率空间，$X$和$X_n,n\geqslant1$是随机变量，若存在$\Omega_0$使得：

$P(\Omega_0)=0$
对$\forall\omega\in\Omega-\Omega_0$，都有$\lim\limits_{n\rightarrow\infty}X_n(\omega)\rightarrow X(\omega)$

则称$X_n$几乎处处收敛到$X$，记作

$$X_n\stackrel{a.s.}\rightarrow X$$

判别法则：

$X_n\stackrel{a.s.}\rightarrow X$当且仅当对于$\forall\varepsilon>0$，都有

$$\lim\limits_{N\rightarrow\infty}P(\bigcup\limits_{n=N}^{\infty}{|X_n(\omega)-X(\omega)|>\varepsilon})=0$$

几乎处处收敛强于依概率收敛强于依分布收敛。

Borel大数律：

设$\xi_k,k\geqslant 1$是一列独立同分布的随机变量，且$P(\xi_k=1)=p$，$P(\xi_k=0)=1-p$。记$S_n=\sum\limits_{k=1}^n\xi_k$，则

$$\frac{S_n}{n}\stackrel{a.s.}\rightarrow p$$

Kolmogorov强大数律：

设$\xi_k,k\geqslant 1$是一列独立同分布的随机变量，且$E(\xi_k)=\mu$。记$S_n=\sum\limits_{k=1}^n\xi_k$，则

$$\frac{S_n}{n}\stackrel{a.s.}\rightarrow\mu$$

Chapter4 概率极限理论

4.1 经典概率极限理论

Bernoulli大数律

De Moivre-Laplace中心极限定理

Poisson极限定理

4.2 经典极限定理的推广

Chebyschev大数律

Khinchine 大数律

Levy-Feller中心极限定理

Lyapunov中心极限定理

4.3 随机变量的收敛性

依概率收敛

依分布收敛

几乎处处收敛

评论