简介及联系方式
网页书最新版唯一来源地址,网页书网页版链接
2018年12月-0.1版 手稿粗整理
2019年2日-0.2版 该书分成三个部分,分别是语音增强、工程实现以及语音识别,欢迎读者加入。
0.2版本更新说明 整理并充实了0.1相关章节,为小白童鞋扩充了第十章DOA部分,另外新增了二十章音频音效,这在音频芯片、播放器和视频软件等场景中会用到,新增了第九章单通道谱减法降噪带来的music noise问题处理部分,新增了十六章波束形成的波滤波以处理同方向噪声,新增了第十七章,舒适噪声生成,新增了十九章网络传输的网络均衡以及第三章单独给频域处理放了一章篇幅。
加入说明 另外欢迎读者可以通过投稿、修稿;贡献代码以及付费的方式推动文章和算法的进一步发展壮大。
在远场语音识别和音视频会议中,需要对获取的语音进行“提纯”(语音增强,语音可懂度和语音质量的提升)以及压缩编码网络传输。语音受到四中类型的噪声干扰,分别是加性噪声,其它语音干扰,混响和回声,它们会削弱语音的质量,进而会影响ASR(Automatic Speech Recognition)识别率或者人的主观听感,处理上述四种不利的影响有很多的方法,主要集中在传统信号处理领域(时域,频域以及空域及他们的高阶统计量,空域可以获得声源的空间方位信息),以及当前的深度学习领域;传统的方法都是先对处理过程建模,如VAD使用的高斯混合模型,这些建模是现实物理过程近似的模拟,深度学些的方法用大量标注过的数据训练的方法以获得更为精确的物理过程近似;经过增强后的语音经网络传输到云端以使用高性能的ASR识别引擎或者传输给即时通信的双方;而网络传输的带宽,抖动,延迟以及丢包(0.34%~2.2%)特点会严重恶化解码后的语音质量,由此衍生出来语音编码和网络均衡。
语音增强相关内容,对于加性降噪方法主要分为四类,谱减法,子空间法,统计模型方法和维纳滤波法。谱减法是实现起来最简单的方法,其基于噪声是加性的假设,通过减去不存在语音时的噪声谱对带噪语音段进行降噪,不过谱减法会带来music noise的问题。基于统计模型法,通过维纳滤波和MMSE准则估计纯净语音的一组系数表示,这种系数可以是傅里叶变换系数。子空间法基于线性代数理论,和信号理论有些差异,基于特征值特征向量正交性原理(亦或称为欧几里德空间),通过SVD(singular value decomposition)或特征值-特征向量分解法将噪声和语音分解到不同的子空间,进而获得纯净语音,ICA,PCA就是这类方法。 VAD(voice activity detection),AEC(automatic echo cacellantion),DOA(direction of arrival),NS(noise suppresion),BF(beamforming), BSS(blind source seperation)等偏重信号处理方法以及DL(deep learning)和一些工程化细节。和基于单麦克的语音增强技术相比,多通道语音增强技术利用阵列带来的空间信息使得在降噪性能提升的同时语音失真度更小。基于DD(Decision Directed)的方法相较ML(maximum likelihood)在估计语音存在概率(SPP,speech present probility)具有更大的优势。在做语音增强时引起的语音失真应尽量的小。随之而来的就有多种方法,SDW-MWF(speech distortion weighted multichannel wiener filter), MVDR(minimum variance distortion less response),以及GSC(generalized sidelobe canceller)算法,这些算法依赖于PSD(power spectral density)估计。在这些方法上还有一些改进算法,如:CGMM-MVDR算法。另外还有一篇是语音编解码方面的,高并发视频会议,以及千差万别的家庭场景,针对网络情况压缩编码传输的意义不亚于语音增强算法。 在实际场景中,精确获得声源方位和阵列坐标信息比较困难。而空间的坐标信息和声源信息实际上是包含在观测到的阵列信号的协方差矩阵里。如何从协方差矩阵这类统计信息里获取有用的信息就尤为关键。
对于Deep learning部分,主要包括特征提取,混合高斯模型/NN(neutral network)声学模型和声学解码,语言模型等,以及kws唤醒词识别。
虽然远场语音识别和视频会议所处理的对象都是语音,但是二者处理的细节差异还是比较大的,语音识别的应用场景是给机器“听”,而视频会议中收听的对象是人耳,人耳比机器要灵敏的多,对“提纯”和不损伤语音的要求都要比机器识别场景高,另外在多人会议场景中,还存在混音的需求,这也是ASR场景没有的,细节性的差异需要具体的体会。
该版本写作于2018年12月30日,作为对2018年的一个技术总结吧,读者如果发现有错误以及其它需求,可以通过如下微信二维码联系到我,版权所有,请用于商业目的前联系作者,谢谢~!
另外,欢迎转发,欢迎投稿(会注明相关作者名和邮箱),加作者微信二维码的各位赏官,请在赞赏时不要关闭赞赏页展示名字按钮,以便设置为星标朋友,设置成功会微信留言告知,欢迎交流。
赞赏码《----------------------------------------------------------------------》个人微信号