第十二章语音去混响(Dereverberation)

当声源发声时，由于反射和延迟现象，会出现同一个声音多次到达人耳的情形，人耳能明显区别出的是回声(这时反射和原始声音到达时间差可长达50ms,甚至数百上千毫秒)。如果反射的声音和原始声音时间在10ms~30ms之间，由于人耳的时间掩蔽特性会增强人耳的听感，但是对于ASR语音识别是有影响的。这被称为混响RT60 是标准的混响时间测量方法，表示从测试信号突然停止到声压级降低 60 dB 所用的时间。当前去混响算法主要分为三个类别:

波束形成波束形式是空域滤波方法，来自其它方法的混响由于空域上的选择性会被滤除，这就要求目标方向是正确的，在360度的3D场景中，需要先定位出目标方向，而在定位目标方向时，混响是有影响的。波束形成技术内容和实例加起来比较多，后面章节再展开。
语音增强技术方法当前去混响方法主要分为三个类别:
基于统计模型的去混响方法
基于LPC方法
基于特征值分解法

3.盲反卷积声学脉冲响应的未知情况下，根据观察到的信号，设计出反向滤波器来削弱混响的影响。

基于语音增强方法

谱减法

基本思想

估计每一帧的音素及其能量，对新出现的帧，减掉其之前各帧中存在的音素能量。混响能量的功率谱密度(power spectral density,psd)可以用下式近似表示：

$\gamma_{rr} [n,k] = e^{-2\Delta T}\gamma_{xx}[n - T,k] \tag{1}$

$\gamma_{rr}$ 是混响语音的 $psd$ , $n$ 是离散时间索引, $k$ 是离散频点索引。衰减因子 $\Delta = \frac{3ln(10)}{RT_{60}}$ 。

根据谱减法有:

$|\hat S[m,k]| = (|X| - \sqrt{\gamma_{rr}})[m,k] \tag {2}$

$\hat S$ 是估计的纯净语音STFT值， $X$ 是带混响的采集到的语音的STFT值， $m$ 是帧索引。

混响时间估计

在Amazon的AWS有篇文献Blind estimation of reverberation time，其给出了混响时间估计方法，就是式子9.1中的 $RT_{60}$ ，进而可以求出 $\Delta$ 。该文献中将9.1中的指数部分使用 $a[n]$ 来代替：

$a[n] = a^n = (e^{\frac{-1}{\tau}{r}})^n = e^{\frac{-n}{r} } \tag{3}$

由声音衰减模型可得衰减信号 $y(n) = a(n)x(n)$ 的似然估计如下:

$L(\mathbf y; a, \sigma) = (\frac{1}{2 \pi a^{(N-1)}\sigma^2})^{N/2} \times \exp(- \frac{\Sigma_{n=0}^{N-1}a^{-2n}y(n)^2}{2\sigma^2}) \tag {4}$

为了求得参数 $a$ 和 $\sigma$ ，对4取对数得:

$\ln L(\mathbf y; a, \sigma) = - \frac{N(N-1)}{2}\ln(a) - \frac{N}{2}\ln(2\pi \sigma^2) - \frac{1}{2\sigma^2}\sum \limits_{n=0}^{N-1} a^{-2n}y(n)^2\tag {5}$

对9.5式分别对 $a$ 和 $\sigma$ 求偏导数，并令其等于零，可以得 $a$ ， $\sigma$ 理论最优解。

$\frac{\partial \ln(L(\mathbf y; a, \sigma))}{\partial a} = \frac{1}{a \sigma^2} \sum \limits_{n=0}^{N-1} na^{-2n} x(n)^2 - \frac{N(N-1)}{2a} \tag{6}$

然而要解11.6并不好解，可以进行量化以减少计算量 $a \in [0,1)$ ，可以假设a可以取的值是 $a \in A={a_1, a_2, \cdots, a_Q}$ , 通常建 $Q \le 10$ ，对于绝大多数情况可以将 $Q=2$ 。则式11.4可以写为：

$L(a_j;\mathbf y) = - \frac{N}{2}\{ (N-1)\ln(a_j) - ln(\frac{2\pi}{N}\sum \limits_{n=0}^{N-1}a_j^{-2n}x[n]^2 - 1) \} \tag {7}$

对于逐帧计算的情况， $a$ 的值可能会随着帧而发生波动。这就需要在波动情况下为每一帧选择最优的估计。说话间隙的无声期声音衰减并不会变化。设 $\beta = a^{-2}$ ,则可以定义：

$g[n] = \beta^{N-1} \sum \limits_{r=n-N+1}^{n} \beta^{r-n}x[r]^2 \tag {8}$

这样,式子9.6的递归求解过程可以变成下式:

$g[n+1] = \beta^{-1}(g[n] + \beta^nx[n+1]^2 -x[n+1-N]^2) \tag{9}$

为了加速这一计算过程，可以预先计算好所有的 $\beta$ ， $ln(a_j)$ 和 $ln(2\pi/n)$ ，最后， $ln(g[n])$ 可以使用查找表计算得到。

谱减法改进当估计到的回声能量大于信号的能量值时,谱减法会得到负值。这可以通过将谱减法转化成权重的形式，这在webrtc的很多算法中都有这个思想。

$G[m,k] = \frac{|X[m,k]| - \gamma_{rr}^{\frac{1}{2}}[m,k]}{|X[m,k]|} \tag{10}$

剔除负值可以使用门限的方法如下:

$|\hat S[m,k]| = \left\{\begin{matrix} G[m,k]Xpm,k] & when \ge \lambda \sqrt{\gamma_{rr}[m,k]}\\ \gamma \sqrt{\gamma_{rr}[m,k]} & other \end{matrix}\right. \tag{11}$

当 $\lambda=0.1$ ,则衰减为20dB.可以进一步使用下式提升混响的psd估计.

$\gamma_{rr}[\hat m,k] = \eta \gamma_{rr}[\hat m - 1, k] + (1 -\eta)|X[m,k]|^2 \tag{12}$

$\eta = \frac{1/(2\Delta)}{1/(2\Delta) + O/(f_s)}$

基于LPC的去混响

LPC(linear predictive coding)

语音信号 $x(n)$ 可以使用p阶线性预测器来表示:

$s(n) = - \sum \limits_{i=1}^{P} a_is(n-i)+ e(n) \tag{13}$

$a_i$ 是预测系数， $e(n)$ 是预测误差。LPC的系数可以做成预测误差滤波器：

$A(z) = 1 + \sum \limits_{i=1}^p a_iz^i \tag {14}$

其对应的全零点滤波器是：

$V(z) = \frac{1}{1 + \sum_{i=1}^p a_iz^i} = \frac{1}{A(z)} \tag{15}$

使用MSE准则计算系数:

$J = E[e^2(n)] = E\{ (s(n) - \sum \limits_{i=1}^p a_is(n-i))^2\} \tag {16}$

令 $\frac{ \partial J} {\partial a_i} = 0$ 可以得到如下:

$\sum \limits_{u=1}^P a_uE\{s(n-i)s(n-u)\} = E\{s(n)s(n-u)\}; 1 \le u \le P \tag {17}$

式17用矩阵表示为下式:

$\mathbf R_{ss} \mathbf a = \mathbf r_{ss}; \mathbf a = [a_1,a_2,\cdots,a_p]^T \tag {18}$

则在10ms~30ms这段稳态时间内,语音信号的LPC系数如下:

$\mathbf R_{ss} \mathbf a = \mathbf r_{ss}; \mathbf a = [a_1,a_2,\cdots,a_p]^T \tag {19}$

由于互相关矩阵 $\mathbf R_ss$ 是Toeplitz矩阵，可以使用Levinson-Durbin算法高效计算获得。

混响场景的LPC 麦克风采集到的信号可以用下式表示:

$x(n) = \mathbf h^T \mathbf s(n) + V(n) \tag {20}$

$x$ 是麦克风采集到的信号， $\mathbf s$ 声源发声的原始信号。对于混响存在的场景，则麦克风采集到的信号可以表示为：

$x(n) = \sum \limits_{i=1}^{p} b_{i}x(n-i) + e(n) \tag{21}$

则LPC的系数安装9.19可得:

$\hat {\mathbf b} = \hat {\mathbf R_{xx}}^{-1} \hat {\mathbf r_{xx}} \tag{22}$

多通道优化对于多通道情况，可以将代价函数进行平均，这样最后求得的系数是多个通道系数的均值，这样有助于减小绕动干扰，增加系统的鲁棒性。也可以结合bf方法。

一个去混响开源算法是WPE

小节

本章主要给出了混响问题描述和统计模型以及LPC编码两种思路，统计模型的思路和前面章节的方法非常相似，这里也并未分析具体的WPE算法的代码，另外，还有一些基于多通道的盲源辨识方法。

第十二章语音去混响(Dereverberation)

第十二章语音去混响(Dereverberation)

基于语音增强方法

谱减法

基本思想

混响时间估计

基于LPC的去混响

小节

results matching ""

No results matching ""

第十二章 语音去混响(Dereverberation)

基于语音增强方法

谱减法

基本思想

混响时间估计

基于LPC的去混响

小节

results matching ""

No results matching ""

第十二章语音去混响(Dereverberation)