声源定位(DOA)

DOA(direction of arrival),在三维空间中,除了时域,频域,还可以利用空域信息对信号进行处理,基于阵列麦克的远场语音识别场景,一些声源分离技术(beamforming, blind source seperation)会要使用到声源方位信息.声源定位技术并不仅限于单个目标源的定位,且对于ASR场景的声源目标是宽带信号. 此外,定位出声源方向,还有益于产品的交互体验(寻向灯,以及电机转动姿态). 声源定位技术主要分为五种。

    1. 互相关技术
    1. 图7.1延迟差

    假设入射的声波是平面波,且夹角是,则有:因为后续会有频域方法计算DOA,这里给出时间上的延迟和频域上的关系:

    互相关技术

    互相关方法具有计算量小,实时性好而被大多数系统中使用,其基于阵元之间的差异时间差(Time-Delay/Frequency-Delay)进而提取出声源距离阵元的位置信息,根据不同的麦克风对就可以在三维空间中唯一确定一个声源,互相关方法也是有缺点的,其抗造性能差,在混响场景准确性也会降低,也有一些算法针对混响场景进行了优化,如SRP-PHAT.此外还有一些波束扫描算法,基本思想是在可能的空间点中做波束合成,然后根据合成后的各个方向上的功率最大值认为是声源方法. 两个麦克风之间的TDOA估计可以通过麦克风之间广义互相关(GCC, generalized cross-correlation)计算得到,如下两个麦克风。这里:其中,是频域权重函数,是互相关的频域计算.频域权重函数对延迟估计的影响较大.

  • 经典互相关法 理想远场模型

  • 平滑互相关变换(SCOT, smoothed coherence transform) 这里推导一下SCOT适应场景:

假设两个麦克风采集到的信息的信噪比相等,则有:从上式可以看出,计算的准确性适用于信噪比较高的场合,但是对于高混响场景来说效果就不行,实际效果也确实是这样.

  • 相位变换法 权重变成由相位组成而不是互功率谱幅度。 由此可得,这和SCOT在SNR趋于无穷大时结果一致. GCC算法在适度噪声和无混响环境下较好,且计算量小,跟踪实时性好,对于混响,需要采用倒谱滤波器以滤除混响的影响.

在工程实现上时域卷积等于频域相乘,在频域里进行计算以减小计算量,且在对频点的处理上,声源发声所在的频点能量较高,可以选择一部分频点以减少无关频点的扰动影响.

results matching ""

    No results matching ""