1、边缘概率
当P(x,y)P(x, y)P(x,y)的每个值被写在由每行表示不同的xxx值,每列表示不同的yyy值形成的网格中时,对网格中的每行求和是很自然的事情,然后将求和的结果P(x)P(x)P(x)写在每行右边的纸的边缘处。
对于连续型变量,我们需要用积分替代求和:
p(x)=∫p(x,y)dy.p(x) = \int p(x, y)dy. p(x)=∫p(x,y)dy.
2、条件概率
在很多情况下,我们感兴趣的是某个事件,在给定其他事件发生时出现的概率。这种概率叫做条件概率。
我们将给定x=x\rm x = \it xx=x 时,y=y\rm y = \it yy=y发生的条件概率记为P(y=y∣x=x)P(\rm y= \it y | \rm x=\it x)P(y=y∣x=x)。
这个条件概率可以通过下面的公式计算:
P(y=y∣x=x)=P(y=y,x=x)P(x=x)P(\rm y= \it y | \rm x=\it x) = \frac {P(\rm y= \it y , \rm x=\it x)}{P(\rm x = \it x)} P(y=y∣x=x)=P(x=x)P(y=y,x=x)
条件概率只在P(x=x)>0P(\rm x \it = x)>0P(x=x)>0时有定义。
我们不能计算给定在永远不会发生的事件上的条件概率。
2.1 条件概率的链式法则
任何多维随机变量的联合概率分布,都可以分解成只有一个变量的条件概率相乘的形式:
P(x(1),…,x(n))=P(x(1))Πi=2nP(x(i)∣x(1),…,x(i−1))P(x^{(1)}, \ldots, x^{(n)}) = P(x^{(1)}) \Pi_{i=2}^n P(x^{(i)} \mid x^{(1)}, \ldots, x^{(i-1)}) P(x(1),…,x(n))=P(x(1))Πi=2nP(x(i)∣x(1),…,x(i−1))
这个规则被称为概率的链式法则或者乘法法则。例如,使用两次定义可以得到
$$
P(a, b, c) = P(a \mid b, c) P(b, c)
P(b, c) = P(b \mid c) P©
P(a, b, c) = P(a \mid b, c) P(b \mid c) P©
$$
3、条件的独立性
两个xxx和yyy,如果它们的概率分布可以表示成两个因子的乘积形式,并且一个因子只包含xxx另一个因子只包含yyy,我们就称这两个随机变量是相互独立的:
∀x∈x,y∈y,p(x=x,y=y)=p(x=x)p(y=y).\forall x \in x, y \in y, p(x = x, y = y) = p(x = x)p(y = y). ∀x∈x,y∈y,p(x=x,y=y)=p(x=x)p(y=y).
如果关于xxx和yyy的条件概率分布对于zzz的每一个值都可以写成乘积的形式,那么这两个随机变量xxx和yyy在给定随机变量zzz时是条件独立的:
∀x∈x,y∈y,z∈z,p(x=x,y=y∣z=z)=p(x=x∣z=z)p(y=y∣z=z)\forall x \in x, y \in y, z \in z, p( x=x, y=y \mid z=z) = p(x = x \mid z = z) p(y = y \mid z = z) ∀x∈x,y∈y,z∈z,p(x=x,y=y∣z=z)=p(x=x∣z=z)p(y=y∣z=z)
我们可以采用一种简化形式来表示独立性和条件独立性:x⊥yx \bot yx⊥y表示xxx和yyy相互独立,x⊥y∣zx \bot y \mid zx⊥y∣z表示xxx和yyy在给定zzz时条件独立。