跳转至

Basic

KL Divergence

KL散度是一种衡量两个分布之间的匹配程度的方法

KL(D||P)=\sum_{i=1}^Np(x_i)log\frac{p(x_i)}{q(x_i)}=\int_xp(x)log\frac{p(x)}{q(x)}dx

KL散度大于等于0,只有当P(X)=Q(X)时取等号,值越小,表示两个分布越接近


JS散度

JS(P1||P2)=12KL(P1||P1+P22)+12KL(P2||P1+P22)

对两种分布

JS(P_1||P_2)=\frac{1}{2}KL(P_1||\frac{P_1+P_2}{2})+\frac{1}{2}KL(P_2||\frac{P_1+P_2}{2})

最大似然估计 (MLE)

已有一个分布,根据sample出来的数值来估计这个分布是什么样子

\{x_1, x_2, ... x_m\}是sample出来的m个样本,对每个点,在一种分布(分布由参数\theta决定)下出现该值的概率是P_G(x_i; \theta),那么要做的找到\theta^*,来最大化

L=\prod_{i=1}^mP_G(x_i; \theta)

argmax_\theta\sum_{i=1}^mlogP_G(x_i;\theta)

取样合理时,近似于

argmax_\theta E_{x \sim P_{data}}[logP_G(x_i; \theta)]

上式右边加上 \int_xP_{data}(x)logP_{data}xdx,因为不含\theta,对求解无影响,但可以整体化为

argmin_\theta KL(P_{data}||P_G)

即MLE等价于求与P_{data}KL散度最小的分布