产品的结构设计对于声学特性的影响非常重要,结构设计中音腔的设计是关键,比如音腔设计导致声波谐振增强,进而导致麦克风爆掉;现在大多数产品都有麦克风和喇叭,喇叭放出的声音会被麦克风采集到,如何在结构设计减小这种影响(在有低音辐射盆),亚马逊echo很有借鉴意义的,对于音质较高的场景,可能低音和中高音由不同的喇叭驱动,这会增加AEC(回声消除)的难度。

喇叭

电学性能

音响上常用的电学性能测试设备是AudioPrecision,这里罗列出比较关心的指标,测试环境的搭建这里略过.

测试项 项目的意义 影响的声学特性
THD+N Total Harmonic Distortion +Noise 描述的是功放器件在给定功率下的谐波失真加噪声,这就意味这经过功放器件后,声音和原始音源差异
SNR Signal to noise Ratio 反映的是信号和噪声的比,在无失真前提下,越大越好
Crosstalk 反映的是一个声道对另一个声道的影响,通常好的影响,我们希望有两个喇叭做左右声道,以增强立体感
Distortion 不同频率的声音经过功放器件后,其失真是不一样的
DC offset 反映的是无声音输入时,功放器件的输出情况

一般而言,音频编解码器件和功率器件(也有二合一的),其电学特性对ASR的影响基本可以忽略,但是需要注意在功率最大时的失真情况,但是对于HIFI级别的高音质场景,通常而定功率下THD+N全频段(20Hz~20KHZ)做到1%之下。 如果想看完整测试报告,请点击以下测试实例链接:Audio Precision test report example一般而言功放芯片都会有一个codec(TI/yamaha以及新唐),这个codec可以对最终出来的音效进行补偿,包括EQ等.

声学性能

声学性能主要是指喇叭和辐射盆震动的机械震动,理想情况是喇叭和辐射盆的往复运动是线性的,也即喇叭和前进的距离和输出的功率是线性()关系,但实际上在输出功率很小或者输出功率超出额定功率的时候,电能所转换出的磁能再转变成弹簧的机械能时,他们的各自部分并不是线性的关系,这就导致了播放出来声音和进入功放器件之前的SDR(signal distortion ratio)变大,一个直观的就是在弹簧拉到一定程度时,所给的力和弹簧拉动的距离所成的比例有所变动,这会导致最终喇叭推动的空气也不是等比的,失真由此产生;在声学性能上会使用激光测试喇叭的震动情况,此外所选磁性材料的选择也是一门很深的学问,所以关于喇叭的设计通常都是给专门的喇叭公司来设计.由于喇叭会发出声音,(AEC)的效果好坏也和这部分有关,给到AEC的参考信号和播放出来的越接近越好.

麦克风

一般的麦克风为了节省硅片面积,采用多阶数的型模数转换,这就需要在硬件上避免频域混跌,这就需要进行重采样,这就引出了第二章的内容()的模数转换也出现了,这样就可以不需要进行重采样了,需要关注的指标如下:

指标 意义
sensitivity 可以探测到最小声压的声音(如-27dBFS)
SNR 同样要关心麦克风本身引入的噪声对信号质量的音响
AOP Acoustic Overload Point,声压过大导致超过10%失真,这影响到产品的使用场景
Frequency Response 麦克风对不同频率信号在不同声压下放大一致性如何
sound pressure level 声压大小,对于音箱远场,声压还是要大些,比如140dB SPL

16bit麦克表示的SPL范围70dB,而这对远场音箱场景是不够的6W. 另外还要看批量产品的动态误差,温湿度影响(ADC器件的温漂)等.由于人声发音范围是20Hz~20KHz,一般麦克风的截止频率设置在20KHz以上,根据奈奎斯特采用定理,如果要不产生频谱混跌,就意味这采样率,为了便于重采样算法,很多系统设计会采用48KHz采样,而后转成16KHz(通常ASR系统声学特征提取是安装16KHz提取的,这是均衡了数据处理量和性能的综合考虑结果). 如上是单颗麦克风的指标,为了便于远场语音识别之类的应用,大多数产品采用多个麦克风组成的阵列做为语音设备的声音获取来源,由于算法的需要,通常会产生出通道一致性的问题,(在雷达系统中常使用自适应通道均衡技术),但是这在麦克风阵列情况下很少采用,麦克风之间的相位一致性也是很重要的.

  • 麦克风采集
  • 采样率,截止频率在8KHz,这要求采样率,为了防止频谱混跌,通常采样率大于,经过重采样后到
  • 为了减小语音失真,通常处理过程不加AGC,可以的化也不加NS(如果服务端有抗噪训练,如果不能处理噪声,ns也是需要的)
  • 避免语音被截幅(AOP要高,),峰值电平在-20~10dBFS为宜
  • 频谱尽量平坦(,),有两层意义,一个是麦克风频谱要求尽量频谱,一个是声音传播损耗需要预加重来增强。
  • 总谐波失真要小,小于1%(从)
  • SNR要高(为佳),减小ADC器件本身带来的噪声。
  • 采样有效比特数,其影响的是信噪比,大于等于16bit即可
  • 语音传输到服务端,对识别率由好到差(网络带宽由大到小)是:FLAC/LINEAR16, AWR_WB,OGG_OPUS

图1.1 频谱平坦度实例

图1.2 THD实例

产线批量生产测试方法:DTMF(双音多频)音源。

结构设计

结构设计上会带来震动,产品外观会带来腔体结构影响,

图1.3 硅麦

上图是一个顶出音的硅麦(此外还有底出音,通常两种开孔的声学特性是有差异的,此外在批量生成波峰焊接时也是有影响的). 一般上图中的麦克并不是裸露在空气中的,而是在产品的外观里面,这样就相当于把麦克风放在腔体里面,麦克风采集到的信号不在是自由场场景了,对于震动情况,可以通常采样橡胶或者悬浮的方式进行,此外,还将喇叭和麦克风放在物理尺寸最大的两极,而对于腔体通常采样紧贴或者设置导音孔(驻波).最终还是要测试多路麦克风在扫频情况下幅频和相频相应的一致性,验证导引孔之类的结构设计的合理性.+

结束语

为了设计出良好的ASR系统,对于结构和电声特性了解些还是有必要的,此外,如果是做批量生产的产品,仅仅考虑ASR还是不够的,还要考虑供应链的稳定性,生产测试便利性和高效性等。

results matching ""

    No results matching ""