1 概率论的基本概念
1.1 随机事件
- 样本空间 S S S:将随机实验所有可能的记过组成的集合称为样本空间。
- 样本点:样本空间的每个结果称为样本点。
- 随机试验、随机事件 E E E、基本事件、必然事件、不可能事件、对立事件 A A ‾ A\overline{A} AA、古典概型。
1.2 频率与概率
- 频率:在相同的条件下进行 n n n次实验,事件 A A A发生的次数 n A n_A nA称为事件 A A A发生的频数。 n A n \frac{n_A}{n} nnA称为事件 A A A发生的频率。
- 概率: E E E是随机试验, S S S是样本空间。 P ( A ) P(A) P(A)称为事件 A A A的概率。
- 频率与概率的性质:
- 非负性: P ( A ) > 0 P(A)>0 P(A)>0
- 规范性: P ( S ) = 1 P(S)=1 P(S)=1
- 可列可加性: A i A j = ∅ , P ( A 1 ∪ A 2 ∪ ⋯ ∪ P n ) = P ( A 1 ) + P ( A 2 ) + ⋯ + P ( A n ) A_iA_j=\emptyset,P(A_1\cup A_2\cup\dotsm\cup P_n)=P(A_1)+P(A_2)+\dotsm+P(A_n) AiAj=∅,P(A1∪A2∪⋯∪Pn)=P(A1)+P(A2)+⋯+P(An)
1.3 条件概率
定义
设
A
,
B
A,B
A,B是两个事件,且
P
(
A
)
>
0
P(A)>0
P(A)>0,则称
P
(
B
∣
A
)
=
P
(
A
B
)
P
(
A
)
P(B|A)=\frac{P(AB)}{P(A)}
P(B∣A)=P(A)P(AB)
也是一种链式法则。图解的方式理解。
P
(
B
∣
A
)
=
P
(
A
B
∣
1
)
P
(
A
∣
1
)
P(B|A)=\frac{P(AB|1)}{P(A|1)}
P(B∣A)=P(A∣1)P(AB∣1)
在事件A发生的条件下,事件B发生的概率。
性质
- 非负性
- 规范性
- 可列可加性。
乘法定理
P
(
A
B
)
=
P
(
A
)
P
(
B
∣
A
)
P(AB)=P(A)P(B|A)
P(AB)=P(A)P(B∣A)
也是一种链式法则。图解的方式理解。
P
(
A
B
∣
1
)
=
P
(
A
∣
1
)
P
(
B
∣
A
)
P(AB|1)=P(A|1)P(B|A)
P(AB∣1)=P(A∣1)P(B∣A)
全概率公式
设试验
E
E
E样本空间为
S
S
S,
A
A
A为试验的实践,
B
1
,
⋯
,
B
n
B_1,\dotsm,B_n
B1,⋯,Bn为S的一个划分,且
P
(
B
i
)
>
0
P(B_i)>0
P(Bi)>0,则:
P
(
A
)
=
P
(
A
∣
B
1
)
P
(
B
1
)
+
⋯
+
P
(
A
∣
B
n
)
P
(
B
n
)
=
∑
i
n
P
(
A
∣
B
i
)
P
(
B
i
)
P(A)=P(A|B_1)P(B_1)+\dotsm+P(A|B_n)P(B_n)\\ =\sum_i^nP(A|B_i)P(B_i)
P(A)=P(A∣B1)P(B1)+⋯+P(A∣Bn)P(Bn)=i∑nP(A∣Bi)P(Bi)
贝叶斯公式
设试验
E
E
E样本空间为
S
S
S,
A
A
A为试验的实践,
B
1
,
⋯
,
B
n
B_1,\dotsm,B_n
B1,⋯,Bn为S的一个划分,且
P
(
A
)
>
0
,
P
(
B
i
)
>
0
P(A)>0,P(B_i)>0
P(A)>0,P(Bi)>0,则:
P
(
B
i
∣
A
)
=
P
(
A
∣
B
i
)
P
(
B
i
)
∑
j
=
1
n
P
(
A
∣
B
j
)
P
(
B
j
)
P(B_i|A)=\frac{P(A|B_i)P(B_i)}{\sum_{j=1}^nP(A|B_j)P(B_j)}
P(Bi∣A)=∑j=1nP(A∣Bj)P(Bj)P(A∣Bi)P(Bi)
起到了交换条件与结果的作用。
1.4 独立性
定义
如果A,B是两个事件,满足:
P
(
A
B
)
=
P
(
A
)
P
(
B
)
P(AB)=P(A)P(B)
P(AB)=P(A)P(B)
则称事件A,B相互独立。即事件A的发生对事件B没有影响。
定理一
若A,B相互独立,则 P ( B ∣ A ) = P ( B ) P(B|A)=P(B) P(B∣A)=P(B).
定理二
若A,B相互独立,则下列事件也相互独立:
A
B
‾
,
A
‾
B
,
A
‾
B
‾
A\overline{B},\overline{A}B,\overline{A}\overline{B}
AB,AB,AB
2 随机变量的分布
2.1 随机变量
定义
样本空间 S = e S={e} S=e, X = X ( e ) X=X(e) X=X(e)是定义在样本空间上的实值单值函数,称 X = X ( e ) X=X(e) X=X(e)为随机变量。
2.2 离散型随机变量及其概率分布
定义
随机变量的取值是有限个或者无限多个。随机变量
X
X
X所有可能的取值为
x
k
x_k
xk,随机变量的分布律记为:
P
(
X
=
x
k
)
=
P
k
,
k
=
1
,
2
,
3
,
⋯
P(X=x_k)=P_k,k=1,2,3,\dotsm
P(X=xk)=Pk,k=1,2,3,⋯
性质
- P k ≥ 0 P_k\geq 0 Pk≥0
- ∑ P k = 1 \sum P_k=1 ∑Pk=1
分布律
- 表格形式给出每个随机变量的分布律。
- 代数公式表示随机变量的分布律。
01分布
P ( X = k ) = p k ( 1 − p ) 1 − k , k = 0 , 1 P(X=k)=p^k(1-p)^{1-k},k=0,1 P(X=k)=pk(1−p)1−k,k=0,1
伯努利实验-二项分布 X ∼ b ( n , p ) X\sim b(n,p) X∼b(n,p):
X表示n重伯努利实验事件A发生的次数。
P
(
X
=
k
)
=
C
n
k
p
k
(
1
−
p
)
n
−
k
,
k
=
0
,
1
,
⋯
,
n
P(X=k)=C_n^kp^k(1-p)^{n-k},k=0,1,\dotsm,n
P(X=k)=Cnkpk(1−p)n−k,k=0,1,⋯,n
泊松分布 X ∼ π ( λ ) X\sim \pi (\lambda) X∼π(λ):
P ( X = k ) = λ k e − λ k ! , k = 1 , 2 , ⋯ , P(X=k)=\frac{\lambda ^ke^{-\lambda}}{k!},k=1,2,\dotsm, P(X=k)=k!λke−λ,k=1,2,⋯,
泊松定理(用泊松分布来逼近二项分布):
λ
\lambda
λ是一个大于零的常数,n是任意正整数,
λ
=
n
P
n
\lambda =nP_n
λ=nPn,则对于任意固定的非负整数k,有:
lim
n
→
+
∞
1
n
(
n
+
1
)
\lim\limits_{n \rightarrow +\infty} \frac{1}{n(n+1)}
n→+∞limn(n+1)1
lim
n
→
∞
C
n
k
p
n
k
(
1
−
p
n
)
n
−
k
=
λ
k
e
−
λ
k
!
\lim\limits_{n \rightarrow \infty} C_n^kp_n^k(1-p_n)^{n-k}=\frac{\lambda ^ke^{-\lambda}}{k!}
n→∞limCnkpnk(1−pn)n−k=k!λke−λ
2.3 随机变量的分布函数
定义
X是一个随机变量,x是任意实数,以下称为X的分布函数:
F
(
x
)
=
P
(
X
≤
x
)
,
−
∞
≤
x
≤
+
∞
F(x)=P(X\leq x),-\infty \leq x \leq +\infty
F(x)=P(X≤x),−∞≤x≤+∞
F ( x ) = ∫ − ∞ x f ( t ) d t F(x)=\int_{-\infty}^x f(t)dt F(x)=∫−∞xf(t)dt
2.4 连续性随机变量
定义
X为连续性随机变量,f(x)称为随机变量的概率密度。
性质
- f ( x ) ≥ 0 f(x)\geq 0 f(x)≥0
- ∫ − ∞ + ∞ f ( x ) d x = 1 \int_{-\infty}^{+\infty}f(x)dx=1 ∫−∞+∞f(x)dx=1
- P ( x 1 < X < x 2 > ) = F ( x 2 ) − F ( x 1 ) = ∫ x 1 x 2 f ( x ) d x P(x_1<X<x_2>)=F(x_2)-F(x_1)=\int_{x_1}^{x_2}f(x)dx P(x1<X<x2>)=F(x2)−F(x1)=∫x1x2f(x)dx
- 若f(x)在x处连续,则:
F ′ = F ( x ) F^\prime=F(x) F′=F(x)
均匀分布 X ∼ U ( a , b ) X\sim U(a,b) X∼U(a,b):
f ( x ) = { 1 b − a a < x ≤ b 0 e l s e f(x)= \begin{cases} \frac{1}{b-a} & a<x\leq b \\ 0 & else \end{cases} f(x)={b−a10a<x≤belse
指数分布
f
(
x
)
=
{
1
θ
e
−
x
θ
x
>
0
0
e
l
s
e
f(x)= \begin{cases} \frac{1}{\theta}e^{-\frac{x}{\theta}}& x>0 \\ 0& else \end{cases}
f(x)={θ1e−θx0x>0else
指数分布具有无记忆性。
正太分布或高斯分布 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) X∼N(μ,σ2):
f
(
x
)
=
1
2
π
σ
e
−
x
−
μ
2
2
σ
2
,
−
∞
<
x
<
+
∞
f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{{x-\mu}^2}{2 \sigma^2}},-\infty < x < + \infty
f(x)=2πσ1e−2σ2x−μ2,−∞<x<+∞
相关性质:
- 关于 x = μ x=\mu x=μ对称
- x = μ x=\mu x=μ时取到最大值。 f ( x ) = 1 2 π f(x)=\frac{1}{\sqrt{2\pi}} f(x)=2π1
- Z = X − μ σ ∼ N ( 0 , 1 ) Z=\frac{X-\mu}{\sigma}\sim N(0,1) Z=σX−μ∼N(0,1)
3 多维随机变量
需要补充联合概率密度相关的内容,边缘概率密度
3.1 二维随机变量
二维随机变量定义
随机实验 E E E,样本空间 S = { e } S=\{e\} S={e}, X = X ( e ) , Y = Y ( e ) X=X(e),Y=Y(e) X=X(e),Y=Y(e)是定义在 S S S上的一个随机变量。由他们构成的向量 ( X , Y ) (X,Y) (X,Y)称为二维随机变量
分布函数
设
(
X
,
Y
)
(X,Y)
(X,Y)是二维随机变量,对于任意实数x,y,有
F
(
x
,
y
)
=
P
(
(
X
≤
x
)
∩
(
Y
≤
y
)
)
⇔
P
(
X
≤
x
,
Y
≤
y
)
F(x,y)=P((X\leq x)\cap(Y\leq y))\Leftrightarrow P(X\leq x,Y\leq y)
F(x,y)=P((X≤x)∩(Y≤y))⇔P(X≤x,Y≤y)
称为二维随机变量(X,Y)的分布函数。或者随机变量X,Y的联合分布函数
分布函数的性质
- F ( x , y ) F(x,y) F(x,y)对于任意一个随机变量是一个不减函数。
- 0 ≤ F ( x , y ) ≤ 1 0\leq F(x,y) \leq 1 0≤F(x,y)≤1
- F ( x , y ) F(x,y) F(x,y)关于x右连续,关于y右连续
-
x
2
>
x
1
,
y
2
>
y
1
x_2 > x_1,y_2>y_1
x2>x1,y2>y1
F ( x 2 , y 2 ) − F ( x 2 , y 1 ) − F ( x 1 , y 2 ) + F ( x 1 , y 1 ) ≥ 0 F(x_2,y_2)-F(x_2,y_1)-F(x_1,y_2)+F(x_1,y_1)\geq 0 F(x2,y2)−F(x2,y1)−F(x1,y2)+F(x1,y1)≥0
二维离散型随机变量联合分布律
P
(
X
=
x
i
,
Y
=
y
i
)
=
p
i
j
P(X=x_i,Y=y_i)=p_{ij}
P(X=xi,Y=yi)=pij
称为二维离散随机变量(X,Y)的分布律,或者随机变量X,Y的联合分布律。
二维离散型随机变量(X,Y)的分布函数
F ( x , y ) = ∑ x i ≤ x ∑ y i ≤ y p i j F(x,y)=\sum_{x_i\leq x}\sum_{y_i\leq y}p_{ij} F(x,y)=xi≤x∑yi≤y∑pij
二维连续型随机变量联合概率密度
f
(
x
,
y
)
f(x,y)
f(x,y)
称为二维连续型随机变量的概率密度或者随机变量X,Y的联合概率密度。
二维连续型随机变量(X,Y)的分布函数
F ( x , y ) = ∫ − ∞ y ∫ − ∞ x f ( u , v ) d u d v F(x,y)=\int_{-\infty}^y\int_{-\infty}^xf(u,v)dudv F(x,y)=∫−∞y∫−∞xf(u,v)dudv
概率密度f(x,y)性质
- f ( x , y ) ≥ 0 f(x,y)\geq 0 f(x,y)≥0
- F ( x , y ) = ∫ − ∞ + ∞ ∫ − ∞ + ∞ f ( u , v ) d u d v = 1 F(x,y)=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}f(u,v)dudv=1 F(x,y)=∫−∞+∞∫−∞+∞f(u,v)dudv=1
- G是平面上的区域则:
P ( ( X , Y ) ∈ G ) = ∬ G f ( x , y ) d x d y P((X,Y)\in G)=\iint_Gf(x,y)dxdy P((X,Y)∈G)=∬Gf(x,y)dxdy - f(x,y)在点(x,y)处连续,
∂ 2 F ( x , y ) ∂ x ∂ y = f ( x , y ) \frac{\partial^2 F(x,y)}{\partial x \partial y}=f(x,y) ∂x∂y∂2F(x,y)=f(x,y)
n维随机变量的分布函数也具有以上性质。
3.2 边缘分布
边缘分布定义
二维随机变量有各自的分布函数
F
x
(
x
)
,
F
y
(
y
)
F_x(x),Fy(y)
Fx(x),Fy(y),称为二维随机变量的边缘分布。
F
x
(
x
)
=
P
(
X
≤
x
)
=
P
(
X
≤
x
,
Y
<
∞
)
=
F
(
x
,
∞
)
F_x(x)=P(X\leq x)=P(X\leq x,Y < \infty)=F(x,\infty)
Fx(x)=P(X≤x)=P(X≤x,Y<∞)=F(x,∞)
边缘分布律
离散型随机变量(X,Y)的边缘分布律
p
i
⋅
=
∑
j
=
1
∞
p
i
j
p
⋅
j
=
∑
i
=
1
∞
p
i
j
p_{i\cdot}=\sum_{j=1}^{\infty}p_{ij} \\ p_{\cdot j}=\sum_{i=1}^{\infty}p_{ij}
pi⋅=j=1∑∞pijp⋅j=i=1∑∞pij
连续型随机变量(X,Y)的边缘密度函数
f
X
(
x
)
=
∫
−
∞
+
∞
f
(
x
,
y
)
d
y
f
Y
(
y
)
=
∫
−
∞
+
∞
f
(
x
,
y
)
d
x
f_X(x)=\int_{-\infty}^{+\infty}f(x,y)dy \\ f_Y(y)=\int_{-\infty}^{+\infty}f(x,y)dx
fX(x)=∫−∞+∞f(x,y)dyfY(y)=∫−∞+∞f(x,y)dx
3.3 条件分布
条件分布律定义
二维随机变量(X,Y),X在
Y
j
Y_j
Yj条件下的条件分布律为:
P
(
X
=
x
i
∣
Y
=
y
j
)
=
p
i
j
p
⋅
j
P(X=x_i|Y=y_j)=\frac{p_{ij}}{p_{\cdot j}}
P(X=xi∣Y=yj)=p⋅jpij
条件概率密度定义
二维随机变量(X,Y),X在Y=y条件下的条件概率密度:
f
X
∣
Y
(
x
∣
y
)
=
f
(
x
,
y
)
f
Y
(
y
)
f_{X|Y}(x|y)=\frac{f(x,y)}{f_Y(y)}
fX∣Y(x∣y)=fY(y)f(x,y)
3.4 相互独立的随机变量
定义
P
(
X
≤
x
,
Y
≤
y
)
=
P
(
X
≤
x
)
P
(
Y
≤
y
)
f
(
x
,
y
)
=
f
X
(
x
)
f
Y
(
y
)
F
(
x
,
y
)
=
F
X
(
x
)
F
Y
(
y
)
P(X\leq x,Y\leq y)=P(X\leq x)P(Y\leq y) \\ f(x,y)=f_X(x)f_Y(y)\\ F(x,y)=F_X(x)F_Y(y) \\
P(X≤x,Y≤y)=P(X≤x)P(Y≤y)f(x,y)=fX(x)fY(y)F(x,y)=FX(x)FY(y)
满足上述条件的随机变量X与Y是相互独立的。
3.5 两个随机变量的函数的分布
Z=X+Y的概率分布
f X + Y ( z ) = ∫ − ∞ + ∞ f ( z − y , y ) d y f X + Y ( z ) = ∫ − ∞ + ∞ f ( x , y − x ) d x f_{X+Y}(z)=\int_{-\infty}^{+\infty}f(z-y,y)dy \\ f_{X+Y}(z)=\int_{-\infty}^{+\infty}f(x,y-x)dx fX+Y(z)=∫−∞+∞f(z−y,y)dyfX+Y(z)=∫−∞+∞f(x,y−x)dx
这个地方有点像二维积分通过关系式进行了简化(我可能又要重新复习高等数学的微积分知识了。
卷积公式
如果X,Y两个随机变量相互独立,则能得到以下公式
f
X
+
Y
(
z
)
=
∫
−
∞
+
∞
f
X
(
z
−
y
)
f
Y
(
y
)
d
y
f
X
+
Y
(
z
)
=
∫
−
∞
+
∞
f
X
(
x
)
f
Y
(
z
−
x
)
d
x
f_{X+Y}(z)=\int_{-\infty}^{+\infty}f_X(z-y)f_Y(y)dy \\ f_{X+Y}(z)=\int_{-\infty}^{+\infty}f_X(x)f_Y(z-x)dx
fX+Y(z)=∫−∞+∞fX(z−y)fY(y)dyfX+Y(z)=∫−∞+∞fX(x)fY(z−x)dx
这里的
f
X
,
f
Y
f_X,f_Y
fX,fY称为卷积公式。
很神奇,概率论矩阵啥的,最后还要用到基础的微积分数学工具。
Z=Y/X与Z=XY的概率分布
f
X
/
Y
(
z
)
=
∫
−
∞
+
∞
f
(
x
,
x
z
)
d
x
f
X
Y
(
z
)
=
∫
−
∞
+
∞
f
(
x
,
z
/
x
)
d
x
f_{X/Y}(z)=\int_{-\infty}^{+\infty}f(x,xz)dx \\ f_{XY}(z)=\int_{-\infty}^{+\infty}f(x,z/x)dx
fX/Y(z)=∫−∞+∞f(x,xz)dxfXY(z)=∫−∞+∞f(x,z/x)dx
若果X,Y两个随机变量相互独立,则能得到以下公式
f
X
/
Y
(
z
)
=
∫
−
∞
+
∞
f
X
(
x
)
f
Y
(
x
z
)
d
x
f
X
Y
(
z
)
=
∫
−
∞
+
∞
f
X
(
x
)
f
Y
(
z
/
x
)
d
x
f_{X/Y}(z)=\int_{-\infty}^{+\infty}f_X(x)f_Y(xz)dx \\ f_{XY}(z)=\int_{-\infty}^{+\infty}f_X(x)f_Y(z/x)dx
fX/Y(z)=∫−∞+∞fX(x)fY(xz)dxfXY(z)=∫−∞+∞fX(x)fY(z/x)dx
M = m a x { X , Y } , N = m i n { X , Y } M=max\{X,Y\},N=min\{X,Y\} M=max{X,Y},N=min{X,Y}的概率分布
P m a x ( z ) = P ( X ≤ z , Y ≤ z ) F m a x ( z ) = F X ( z ) F Y ( z ) F m i n ( z ) = 1 − ( 1 − F X ( z ) ) ( 1 − F Y ( z ) ) P_{max}(z)=P({X\leq z},Y\leq z)\\ F_{max}(z)=F_X(z)F_Y(z) \\ F_{min}(z)=1-(1-F_X(z))(1-F_Y(z)) Pmax(z)=P(X≤z,Y≤z)Fmax(z)=FX(z)FY(z)Fmin(z)=1−(1−FX(z))(1−FY(z))
可以将以上讨论扩展到n个随机变量
4. 随机变量的数字特征
这里并非统计量,而是估计量。即通过概率计算得到的总体的估计值,是数据特征。
4.1 数学期望或均值
主要包括数学期望的定义式,基本四则运算,与常见概率分布的数学期望的复杂运算。
定义
离散型
E
(
X
)
=
∑
k
∞
x
k
p
k
E(X)=\sum_k^\infty x_kp_k
E(X)=∑k∞xkpk
连续型
E
(
x
)
=
∫
−
∞
∞
x
f
(
x
)
d
x
E(x)=\int_{-\infty}^{\infty}xf(x)dx
E(x)=∫−∞∞xf(x)dx
常见数学期望
X ∼ π ( λ ) ; E ( x ) = λ X ∼ U ( a , b ) ; E ( x ) = a + b 2 X\sim \pi(\lambda);E(x)=\lambda \\ X\sim U(a,b);E(x)=\frac{a+b}{2} X∼π(λ);E(x)=λX∼U(a,b);E(x)=2a+b
数学期望的性质
- 常数期望不变: E ( C ) = C E(C)=C E(C)=C
- 数称特性: E ( a X ) = a E ( X ) E(aX)=aE(X) E(aX)=aE(X)
- 高维线性可加性XY不必独立: E ( X + Y ) = E ( X ) + E ( Y ) E(X+Y)=E(X)+E(Y) E(X+Y)=E(X)+E(Y)
- 高维乘积X与Y相互独立: E ( X Y ) = E ( X ) E ( Y ) E(XY)=E(X)E(Y) E(XY)=E(X)E(Y)
数学期望定理(运算公式):
Y
=
g
(
X
)
,
P
(
X
=
x
k
)
=
p
k
E
(
Y
)
=
E
(
g
(
X
)
)
=
∑
k
=
1
∞
g
(
x
k
)
p
k
E
(
Y
)
=
E
(
g
(
x
)
)
=
∫
−
∞
∞
g
(
x
)
f
(
x
)
d
x
Y=g(X),P(X=x_k)=p_k\\ E(Y)=E(g(X))=\sum_{k=1}^{\infty}g(x_k)p_k \\ E(Y)=E(g(x))=\int_{-\infty}^{\infty}g(x)f(x)dx
Y=g(X),P(X=xk)=pkE(Y)=E(g(X))=k=1∑∞g(xk)pkE(Y)=E(g(x))=∫−∞∞g(x)f(x)dx
利用定理可以直接计算变换后的函数密度。
4.2 方差
主要包括方差的定义式,基本四则运算,与常见概率分布的方差的复杂运算。
定义
定义式:
D
(
X
)
=
V
a
r
(
X
)
=
E
(
(
X
−
E
(
X
)
)
2
)
D(X)=Var(X)=E((X-E(X))^2)
D(X)=Var(X)=E((X−E(X))2)
离散型:
D
(
X
)
=
∑
1
∞
(
x
k
−
E
(
X
)
)
2
p
k
D(X)=\sum_1^\infty (x_k-E(X))^2p_k
D(X)=∑1∞(xk−E(X))2pk
连续型:
D
(
X
)
=
∫
−
∞
+
∞
(
x
−
E
(
x
)
)
2
f
(
x
)
d
x
D(X)=\int_{-\infty}^{+\infty}(x-E(x))^2f(x)dx
D(X)=∫−∞+∞(x−E(x))2f(x)dx
简化式:
D
(
X
)
=
E
(
X
2
)
−
(
E
(
X
)
)
2
D(X)=E(X^2)-(E(X))^2
D(X)=E(X2)−(E(X))2
常见的方差
X
∼
B
(
0
,
1
)
,
D
(
X
)
=
p
(
1
−
p
)
X\sim B(0,1),D(X)=p(1-p)
X∼B(0,1),D(X)=p(1−p)
X
∼
N
(
μ
,
σ
2
)
,
D
(
X
)
=
σ
2
X\sim N(\mu,\sigma^2),D(X)=\sigma^2
X∼N(μ,σ2),D(X)=σ2
X
∼
π
(
λ
)
,
D
(
X
)
=
λ
X\sim \pi(\lambda),D(X)=\lambda
X∼π(λ),D(X)=λ
X
∼
U
(
a
,
b
)
,
D
(
X
)
=
(
b
−
a
)
2
12
X\sim U(a,b),D(X)=\frac{(b-a)^2}{12}
X∼U(a,b),D(X)=12(b−a)2
方差的性质
- 常数不变性:C是常数, D ( C ) = 0 D(C)=0 D(C)=0
- 数乘特性: D ( C X ) = C 2 D ( X ) D(CX)=C^2D(X) D(CX)=C2D(X)
- 高维独立可加性:若X,Y相互独立,则 D ( X + Y ) = D ( X ) + D ( Y ) D(X+Y)=D(X)+D(Y) D(X+Y)=D(X)+D(Y)
- P ( X = E ( X ) ) = 1 ⇔ D ( X ) = 0 P(X=E(X))=1 \Leftrightarrow D(X)=0 P(X=E(X))=1⇔D(X)=0
4.3 协方差与相关系数
主要包括协方差的定义式,基本四则运算。
定义
C
o
v
(
X
,
Y
)
=
E
(
(
X
−
E
(
X
)
)
(
Y
−
E
(
Y
)
)
)
=
E
(
X
Y
)
−
E
(
X
)
E
(
Y
)
样本
=
∑
(
x
i
−
x
‾
)
(
y
i
−
y
‾
)
ρ
X
Y
=
C
o
v
(
X
,
Y
)
D
(
X
)
D
(
Y
)
Cov(X,Y)=E((X-E(X))(Y-E(Y))) \\ =E(XY)-E(X)E(Y)\\ 样本=\sum(x_i-\overline{x})(y_i-\overline{y})\\ \rho_{XY}=\frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}
Cov(X,Y)=E((X−E(X))(Y−E(Y)))=E(XY)−E(X)E(Y)样本=∑(xi−x)(yi−y)ρXY=D(X)D(Y)Cov(X,Y)
X,Y 相互独立时,
C
o
v
(
X
,
Y
)
=
0
Cov(X,Y)=0
Cov(X,Y)=0
协方差含义
当求高数随机变量的方差时,如果随机变量不独立,会产生交叉项。高维乘积的方差,存在交叉项。
D
(
X
+
Y
)
=
E
(
(
X
−
E
(
X
)
)
2
)
+
E
(
(
Y
−
E
(
Y
)
)
2
)
+
2
E
(
(
X
−
E
(
X
)
)
(
Y
−
E
(
Y
)
)
)
D
(
X
+
Y
)
=
D
(
X
)
+
D
(
Y
)
+
2
C
o
v
(
X
,
Y
)
D(X+Y)=E((X-E(X))^2)+E((Y-E(Y))^2)+2E((X-E(X))(Y-E(Y))) \\ D(X+Y)=D(X)+D(Y)+2Cov(X,Y) \\
D(X+Y)=E((X−E(X))2)+E((Y−E(Y))2)+2E((X−E(X))(Y−E(Y)))D(X+Y)=D(X)+D(Y)+2Cov(X,Y)
相关系数是协方差的标准化。用来表示X与Y的相关性。
协方差性质
- 当X与Y独立时: C o v ( X , Y ) = 0 Cov(X,Y)=0 Cov(X,Y)=0
- C为常数: C o v ( X , C ) = 0 Cov(X,C)=0 Cov(X,C)=0
- 完全相关: C o v ( X , X ) = D ( X ) Cov(X,X)=D(X) Cov(X,X)=D(X)
- 交换律: C o v ( X , Y ) = C o v ( Y , X ) Cov(X,Y)=Cov(Y,X) Cov(X,Y)=Cov(Y,X)
- 线性可加性: C o v ( a X + c , b Y + d ) = a b C o v ( X , Y ) Cov(aX+c,bY+d)=abCov(X,Y) Cov(aX+c,bY+d)=abCov(X,Y)
- 分配率: C o v ( X 1 + X 2 , Y ) = C o v ( X 1 , Y ) + C o v ( X 2 , Y ) Cov(X_1+X_2,Y)=Cov(X_1,Y)+Cov(X_2,Y) Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)
- 当X与Y不独立时: D ( X + Y ) = D ( X ) + D ( Y ) + C o v ( X , Y ) D(X+Y)=D(X)+D(Y)+Cov(X,Y) D(X+Y)=D(X)+D(Y)+Cov(X,Y)
相关系数性质
- ∣ ρ X Y ∣ ≤ 1 |\rho_{XY}|\leq 1 ∣ρXY∣≤1
- ∣ ρ X Y ∣ = 1 ⇔ P ( Y = a X + b ) = 1 |\rho_{XY}|=1 \Leftrightarrow P(Y=aX+b)=1 ∣ρXY∣=1⇔P(Y=aX+b)=1,即两者之间存在线性关系。
- ρ = 0 \rho = 0 ρ=0,XY两者不相关
4.4 矩、协方差矩阵
定义
k阶原点矩:
E
(
X
k
)
E(X^k)
E(Xk).
k阶中心矩:
E
(
(
X
−
E
(
X
)
)
k
)
E((X-E(X))^k)
E((X−E(X))k)
切比雪夫不等式
随机变量X具有数学期望
E
(
X
)
=
μ
,
D
(
X
)
=
σ
2
E(X)=\mu,D(X)=\sigma^2
E(X)=μ,D(X)=σ2。对于任意正数
ϵ
\epsilon
ϵ,不等式成立:
P
(
∣
X
−
μ
∣
≥
ϵ
)
≤
σ
2
ϵ
2
或
P
(
∣
X
−
μ
∣
<
ϵ
)
≥
1
−
σ
2
ϵ
2
P(|X-\mu|\geq\epsilon)\leq\frac{\sigma^2}{\epsilon^2} \\ 或 P(|X-\mu|< \epsilon)\geq 1-\frac{\sigma^2}{\epsilon^2}
P(∣X−μ∣≥ϵ)≤ϵ2σ2或P(∣X−μ∣<ϵ)≥1−ϵ2σ2
相关性质以后再补充。
5. 大数定律和中心极限定理
5.1 大数定律
弱大数定理(辛钦大数定理)
X
1
,
X
2
,
⋯
X_1,X_2,\dotsm
X1,X2,⋯独立同分布,
E
(
X
k
)
=
μ
E(X_k)=\mu
E(Xk)=μ,对于任意的
ϵ
≥
0
\epsilon \geq 0
ϵ≥0,有:(可以证明)
lim
n
→
0
P
(
∣
1
n
∑
k
=
1
n
x
k
−
μ
∣
<
ϵ
)
=
1
\lim\limits_{n\rightarrow 0}P(|\frac{1}{n}\sum_{k=1}^nx_k-\mu|<\epsilon)=1
n→0limP(∣n1k=1∑nxk−μ∣<ϵ)=1
X
‾
=
1
n
∑
k
=
1
n
x
k
\overline{X}=\frac{1}{n} \sum_{k=1}^nx_k
X=n1∑k=1nxk算术平拘束依概率收敛于
μ
\mu
μ,即
X
‾
→
P
μ
\overline{X}\xrightarrow{P}\mu
XPμ
伯努利大数定理
设
f
A
f_A
fA是n次实验中事件A发生的次数,P是每次实验中A发生的概率。则有(可以理解)
lim
n
→
∞
P
(
∣
f
A
n
−
p
∣
<
ϵ
)
=
1
lim
n
→
∞
P
(
∣
f
A
n
−
p
∣
≥
ϵ
)
=
0
\lim\limits_{n\rightarrow\infty}P(|\frac{f_A}{n}-p|<\epsilon)=1 \\ \lim\limits_{n\rightarrow\infty}P(|\frac{f_A}{n}-p|\geq\epsilon)=0
n→∞limP(∣nfA−p∣<ϵ)=1n→∞limP(∣nfA−p∣≥ϵ)=0
5.2 中心极限定理
定理一(独立同分布的中心极限定理)
X
1
,
X
2
,
⋯
X_1,X_2,\dotsm
X1,X2,⋯独立同分布,
E
(
X
k
)
=
μ
,
D
(
X
k
)
=
σ
2
E(X_k)=\mu,D(X_k)=\sigma^2
E(Xk)=μ,D(Xk)=σ2,则随机化变量之和的标准化变量为:
Y
n
=
∑
k
=
1
n
X
k
−
n
μ
n
σ
Y_n=\frac{\sum_{k=1}^nX_k-n\mu}{\sqrt{n}\sigma}
Yn=nσ∑k=1nXk−nμ
它的概率分布为:
lim
n
→
∞
F
n
(
x
)
=
∫
−
∞
x
1
2
π
e
−
t
2
2
d
t
\lim\limits_{n\rightarrow\infty}F_n(x)=\int_{-\infty}^x\frac{1}{\sqrt{2\pi}}e^{\frac{-t^2}{2}}dt
n→∞limFn(x)=∫−∞x2π1e2−t2dt
含义说明:
E
(
X
k
)
=
μ
,
D
(
X
k
)
=
σ
2
E(X_k)=\mu,D(X_k)=\sigma^2
E(Xk)=μ,D(Xk)=σ2的独立同分布的随机变量的和的标准化变量
Y
n
Y_n
Yn,当n足够大时,近似服从标准化正太分布。
定理二(李雅普诺夫定理)
X
1
,
X
2
,
⋯
X_1,X_2,\dotsm
X1,X2,⋯相互独立,但并不是同分布。
E
(
X
k
)
=
μ
k
,
D
(
X
k
)
=
σ
k
2
E(X_k)=\mu_k,D(X_k)=\sigma_k^2
E(Xk)=μk,D(Xk)=σk2,则随机化变量之和的标准化变量为:
Z
n
=
∑
k
=
1
n
X
k
−
∑
k
=
1
n
μ
k
∑
k
=
1
n
σ
k
2
Z_n=\frac{\sum_{k=1}^nX_k-\sum_{k=1}^n\mu_k}{\sum_{k=1}^n\sigma_k^2}
Zn=∑k=1nσk2∑k=1nXk−∑k=1nμk
它的概率分布为:
lim
n
→
∞
F
n
(
x
)
=
∫
−
∞
x
1
2
π
e
−
t
2
2
d
t
\lim\limits_{n\rightarrow\infty}F_n(x)=\int_{-\infty}^x\frac{1}{\sqrt{2\pi}}e^{\frac{-t^2}{2}}dt
n→∞limFn(x)=∫−∞x2π1e2−t2dt
含义说明,无论各个随机变量服从什么样的分布,当n足够大时,他们和的标准化变量
Z
n
Z_n
Zn都服从正太分布。
定理三(迪莫夫拉普拉斯定理)
设随机变量 η n \eta_n ηn服从(n,p)二项分布。对于任意的x有:
lim
n
→
∞
P
(
η
n
−
n
p
n
p
(
1
−
p
)
≤
x
)
=
∫
−
∞
x
1
2
π
e
−
t
2
2
d
t
\lim\limits_{n\rightarrow\infty}P(\frac{\eta_n-np}{\sqrt{np(1-p)}}\leq x)=\int_{-\infty}^x\frac{1}{\sqrt{2\pi}}e^{\frac{-t^2}{2}}dt
n→∞limP(np(1−p)ηn−np≤x)=∫−∞x2π1e2−t2dt
含义说明:正态分布是二项分布的极限分布。