第二十三章 高斯分布和EM算法
在做ASR识别的声学模型时,用到多维高斯模型和EM算法,在做CGMM的波束形成时也用到了高斯分布和EM算法。
马氏距离
如图二给出的两个列表,,是第一个类别两个维度的中心距的坐标,对于一个新给的变量X,判断其所属的类别可以使用最近临域边界法,即求x分别到两个类别中心的距离,里哪个类别距离小,就可以将其归为哪个类别。可以更进一步,将距离通过指数函数转换成概率,增加权重因子可得。
对于多维情况,指数部分求距离则变成。这个距离被称为马氏距离。
协方差矩阵的种类
球形,对角和全协方差矩阵
高斯分布
高斯分布(Gaussian distribution)又称为正太分布(Normal distribution).
一维高斯分布
若随机变量服从均值为,标准方差为的高斯分布,则记为: 其概率密度函数记为:
二维高斯分布
二维随机变量的高斯分布如下: 其中是和之间的相关系数, 在且的情况下,可以令:
则有:
通过求解行列式的值,和二维矩阵求逆计算公式是:
对角阵 假设上述变量和是不相关的,那么其相关系数,则协方差矩阵变为:
在有些场景中,为了减少运算量,假设建模的对象(如语言发音模型)分类是不相关的,则由协方差矩阵蜕化为对角阵,kaldi中就有对角高斯混合模型协方差矩阵类型可选.
多维高斯分布
对于语音识别中的声学模型,每段语音分帧提取MFCC特征多半是40维度,或者NN方法中的fbank也多半选择了40维.将上节的二维拓展到多维分布后可得如下概率密度函数:
此外还有复高斯模型,其每一维变量都包括实部和虚部.
EM算法
一维高斯分布的EM算法
EM算法的初始化:
- 设置随机变量集的初始均值估计,如K=3(类别), N=100,即100个随机变量分类到三个类别中去, 则可以设置.
- 计算初始协方差参数,
- 设置随机变量的初始分布为均匀分布: .
E步骤:
- 对计算 此处是属于类别的概率,即.
M步骤: 使用E步骤计算的对计算:
收敛结束条件:
- 一种是按找EM总数算,一种是按照M步骤连续两次的目标值差异度算.
聚类操作,是指并不知道参数的类别总数时将相近的随机变量合并成同一个类.