第一章 结构和器件
现实应用中,语音的获取常通过硬件产品的形式获得的,声音传播的波动特点又必须把产品的结构作为考量的因素。
对于结构设计,主要是结构设计上对麦克风采集到的信号的影响,包括结构震动,腔体效应,导音孔,音腔谐振自激放大,现在大多数产品同时有麦克风和喇叭,而喇叭放出的声音会被麦克风采集到,回采(硬件或者软件实现)到的喇叭信号对最终的AEC(回声消除)影响比较大。
喇叭
电学性能
音响上常用的电学性能测试设备是AudioPrecision,这里罗列出比较关心的指标,测试环境的搭建这里略过.
测试项 | 项目的意义 | 影响的声学特性 |
---|---|---|
THD+N | Total Harmonic Distortion +Noise | 描述的是功放器件在给定功率下的谐波失真加噪声,这就意味这经过功放器件后,声音和原始音源差异 |
SNR | Signal to noise Ratio | 反映的是信号和噪声的比,在无失真前提下,越大越好 |
Crosstalk | 反映的是一个声道对另一个声道的影响,通常好的影响,我们希望有两个喇叭做左右声道,以增强立体感 | |
Distortion | 不同频率的声音经过功放器件后,其失真是不一样的 | |
DC offset | 反映的是无声音输入时,功放器件的输出情况 |
一般而言,音频编解码器件和功率器件(也有二合一的),其电学特性对ASR的影响基本可以忽略,但是需要注意在功率最大时的失真情况,但是对于HIFI级别的高音质场景,通常而定功率下THD+N全频段(20Hz~20KHZ)做到1%之下。 如果想看完整测试报告,请点击以下测试实例链接: Audio Precision test report example 一般而言功放芯片都会有一个codec(TI/yamaha以及新唐),这个codec可以对最终出来的音效进行补偿,包括EQ等. 在有speaker的场景中,通常要做AEC,除了结构上避让之外,speaker在150~7kHz范围的THD在5%之下,因为通常speaker的音量和说话人的音量保持一致,而麦克于speaker的距离通常比人与speaker的距离要近很多,麦克风采集到的speaker音量通常比人声要大20dB以上,这就要求麦克风和speaker尽可能的放置的更远。
声学性能
声学性能主要是指喇叭和辐射盆震动的机械震动,理想情况是喇叭和辐射盆的往复运动是线性的,也即喇叭和前进的距离和输出的功率是线性()关系,但实际上在输出功率很小或者输出功率超出额定功率的时候,电能所转换出的磁能再转变成弹簧的机械能时,他们的各自部分并不是线性的关系,这就导致了播放出来声音和进入功放器件之前的SDR(signal distortion ratio)变大,一个直观的就是在弹簧拉到一定程度时,所给的力和弹簧拉动的距离所成的比例有所变动,这会导致最终喇叭推动的空气也不是等比的,失真由此产生;在声学性能上会使用激光测试喇叭的震动情况,此外所选磁性材料的选择也是一门很深的学问,所以关于喇叭的设计通常都是给专门的喇叭公司来设计.由于喇叭会发出声音,(AEC)的效果好坏也和这部分有关,给到AEC的参考信号和播放出来的越接近越好。
电声测试仪器AduioPrecision
这不是广告,而是透过专业的仪器看看测试具体的报告细节。 测试项如下:
详细报告在如下地址: https://github.com/shichaog/papers/blob/master/sound_ele_test.pdf
THD+N vs POUT
Total Harmonic Distortion + Noise;总谐波失真加噪声,音频功率放大器的一个主要性能指标,是音频功率放大器的额定输出功率的一个条件。 反应性质:声音放大后的失真程度,这对AEC算法有影响。 一般范围:0.00n%~10% 一般测试条件:FIN= 1KHz
理想的音频功率放大器,若不考虑该功率放大器的增益大小,输入一定频率的正弦波信号,输出也应该是没有失真(波形没有变化)/没有噪声的正弦波信号。但真实的音频功率放大器的输出音频信号总会有点失真,并且叠加了噪声(在正弦波上叠加了高频杂波).这种失真是较小的,从波形图中也难看出来,只有用失真仪才能测出。波形的失真实在正弦波上加上了多种高频谐波造成的(3次谐波,5次谐波),所以称为总谐波失真。
麦克风
一般的麦克风需要关注的指标如下:
指标 | 意义 |
---|---|
sensitivity | 可以探测到最小声压的声音(如-27dBFS) |
SNR | 同样要关心麦克风本身引入的噪声对信号质量的音响 |
AOP | Acoustic Overload Point,声压过大导致超过10%失真,这影响到产品的使用场景 |
Frequency Response | 麦克风对不同频率信号在不同声压下放大一致性如何 |
sound pressure level | 声压大小,对于音箱远场,声压还是要大些,比如140dB SPL |
16bit麦克表示的SPL范围70dB,而这对远场音箱场景是不够的6W. 另外还要看批量产品的动态误差,温湿度影响(ADC器件的温漂)等.由于人声发音范围是20Hz~20KHz,一般麦克风的截止频率设置在20KHz以上,根据奈奎斯特采用定理,如果要不产生频谱混跌,就意味这采样率,为了便于重采样算法,很多系统设计会采用48KHz采样,而后转成16KHz(通常ASR系统声学特征提取是安装16KHz提取的,这是均衡了数据处理量和性能的综合考虑结果). 如上是单颗麦克风的指标,为了便于远场语音识别之类的应用,大多数产品采用多个麦克风组成的阵列做为语音设备的声音获取来源,由于算法的需要,通常会产生出通道一致性的问题,(在雷达系统中常使用自适应通道均衡技术),但是这在麦克风阵列情况下很少采用,麦克风之间的相位一致性也是很重要的.
- 麦克风采集
- 采样率,截止频率在8KHz,这要求采样率,为了防止频谱混跌,通常采样率大于,经过重采样后到
- 为了减小语音失真,通常处理过程不加AGC,可以的化也不加NS(如果服务端有抗噪训练,如果不能处理噪声,ns也是需要的)
- 避免语音被截幅(AOP要高,),峰值电平在-20~10dBFS为宜
- 频谱尽量平坦(,),有两层意义,一个是麦克风频谱要求尽量频谱,一个是声音传播损耗需要预加重来增强。
- 总谐波失真要小,小于1%(从)
- SNR要高(为佳),减小ADC器件本身带来的噪声。
- 采样有效比特数,其影响的是信噪比,大于等于16bit即可
- 语音传输到服务端,对识别率由好到差(网络带宽由大到小)是:FLAC/LINEAR16, AWR_WB,OGG_OPUS
图1.1 频谱平坦度实例
图1.2 THD实例
产线批量生产测试方法:DTMF(双音多频)音源。
结构设计
结构设计上会带来震动,产品外观会带来腔体结构影响,
图1.3 硅麦
上图是一个顶出音的硅麦(此外还有底出音,通常两种开孔的声学特性是有差异的,此外在批量生成波峰焊接时也是有影响的). 一般上图中的麦克并不是裸露在空气中的,而是在产品的外观里面,这样就相当于把麦克风放在腔体里面,麦克风采集到的信号不在是自由场场景了,对于震动情况,可以通常采样橡胶或者悬浮的方式进行,此外,还将喇叭和麦克风放在物理尺寸最大的两极,而对于腔体通常采样紧贴或者设置导音孔(驻波).最终还是要测试多路麦克风在扫频情况下幅频和相频相应的一致性,验证导引孔之类的结构设计的合理性.
硬件装备
在做音频音效的相关的算法时,除了看时频域的视觉图,还必不可少的用耳朵听,好的监听设备能够让人更细粒度的感受到声音,为了减少电声(电子器件和机械)上的损失,需要好的听觉装备。
听装备
在评估硬件和算法性能时,使用监听耳机,实际听每个环节输入输出声音信号中的细节还是有必要的,评估监听耳机好坏,主要是低中高三个频段以及声场的表现力。监听耳机监听耳机我推荐索尼MDR7506和ATH-M40x,不推荐Sennheiser HD280。如果亲测监听耳机或者高品质音箱,两千价位的Boss的Companion 20不错,三千价位的音箱,惠威x4,真力8010a性价比都不错,推荐测试歌曲和测试方法如下: 歌曲一 渡口(蔡琴) 测低音和人声,前三次鼓声,低音应沉重有力,能下潜较深,同时前三次鼓声应该清晰,不浑浊;在人声和鼓声同时出现部分,注意观察人声和鼓声的各自表现;
歌曲二:Hotel California (Live) 测试声场的表现,1:20开始,注意听各种声音,测试自己是否有身临其境的感觉;
歌曲三:雪花飞扬(郭峰) 雪(郭峰) 电子乐器合成,各频段均有,测试整体的表现张力。
歌曲四: 影子(王菲), 天堂(腾格尔) 哭砂(黄莺莺) 测试人声:影子中王菲的嗓音伤感而感性,略带沙哑,唇齿音明晰;天堂中腾格尔富有爆发力,动态范围比一般歌手大很多。哭砂抛开其讲述的凄美爱情故事,静静听人声细节。
亦可以使用惠威试音碟,非顶级设备不用天碟,试音音源确保无损。想要上述无损音源请通过简介中微信二维码联系。
声场的表现力
图中是一个影院的部分喇叭和低音辐射盆的排布,在影院中可以仔细听电影插播歌曲时,人声和鼓声等乐器的分离度以及清晰度,也可以注意下声音发出的方位,感受下是否有身临其境的感觉。记住这感觉,在对比自家的音箱效果感受下。
电子管
完全兴趣,看完整版视频
测试装备
推荐使用audio precision555,用来测试电声设备,不论是做ASR还是会议室;测试麦克和speak的电学性能,以及加上结构的声学性能,算法上有些依赖,如AEC算法希望功放带来的THD尽量的小,以获得好的AEC效果,大多数AEC算法以THD等于5%界,越小越好,但也与外界条件密不可分,THD等电学参数可以直接使用AP测得,声学精准测试还需要消声室环境,无条件可以做相对测试,测试比较满意后再租用消声室做精确测试。
结束语
为了设计出良好的ASR和视频会议系统,对于结构和电声特性了解些还是有必要的,此外,如果是做批量生产的产品,仅仅考虑ASR还是不够的,还要考虑供应链的稳定性,生产测试便利性和高效性等。