IP电话机、视频可视电话通信产品及组网方案

分组化语音技术——无话部分抑制

时间:2020-05-26 08:30 作者:admin 分享到:
       无话部分抑制是指将谈话中不说话的部分去除。引起没有语音的主要原因是谈话中,总有一方处于聆听状态,也有小部分无语音是由句与句、短语与短语之间的停顿引起的。总之,在一个双向的64kbit/s速率的PCM语音流交谈中,有60%并没有实际语音。
        抑制无话部分面对的最大问题是:说话的人在一段沉默之后,如何识别他将于何时再开始说话。为什么这会成为一个困难呢?这是因为谈话一方总有一些背景噪声的影响,根据无话部分抑制的概念,周围的背景噪声不应被分组化,也不应被发送,系统应该只对真正的语音进行处理,所以必需把背景噪声和真正的语音区分开来。其中的技巧在于可靠地识别出说话人的音量级别远远高于背景噪声的,从而判断出他又开始说话了。比背景噪声高的声音也可能是噪声的突然爆发(比如敲击声)。这就是“语音激活识别”(简称VAD)问题。
        如果语音激活识别的级别设置得太低,那么聆听的一方会突然听到敲击声、车鸣声等等外界与谈话无关的声音。如果语音激活识别的级别设置得太高了,那么谈话人再次开始的谈话将被剪辑掉一部分,刚开始的声音因为较低而不被分组化和发送。因为语音分组化的处理是实时的,所以当设置级别过高的VAD进程意识到交谈的人已经开始说话时,已经来不及获取最初的语音了。
        当对VoIP分组进行了语音压缩和对抑制无话部分进行处理之后,就可以使它与其他分组一起在64kbit/s的链路上传输了。但这样做,我们将很难将链路上的VoIP分组传输和文件传输、电子邮件传输区别开来。

版权所有:IP电话:http://www.g3voip.com 转载请注明出处

热销IP电话产品hot products