分组化语音技术——无话部分抑制

无话部分抑制是指将谈话中不说话的部分去除。引起没有语音的主要原因是谈话中，总有一方处于聆听状态，也有小部分无语音是由句与句、短语与短语之间的停顿引起的。总之，在一个双向的64kbit/s速率的PCM语音流交谈中，有60%并没有实际语音。
抑制无话部分面对的最大问题是：说话的人在一段沉默之后，如何识别他将于何时再开始说话。为什么这会成为一个困难呢？这是因为谈话一方总有一些背景噪声的影响，根据无话部分抑制的概念，周围的背景噪声不应被分组化，也不应被发送，系统应该只对真正的语音进行处理，所以必需把背景噪声和真正的语音区分开来。其中的技巧在于可靠地识别出说话人的音量级别远远高于背景噪声的，从而判断出他又开始说话了。比背景噪声高的声音也可能是噪声的突然爆发（比如敲击声）。这就是“语音激活识别”（简称VAD）问题。
如果语音激活识别的级别设置得太低，那么聆听的一方会突然听到敲击声、车鸣声等等外界与谈话无关的声音。如果语音激活识别的级别设置得太高了，那么谈话人再次开始的谈话将被剪辑掉一部分，刚开始的声音因为较低而不被分组化和发送。因为语音分组化的处理是实时的，所以当设置级别过高的VAD进程意识到交谈的人已经开始说话时，已经来不及获取最初的语音了。
当对VoIP分组进行了语音压缩和对抑制无话部分进行处理之后，就可以使它与其他分组一起在64kbit/s的链路上传输了。但这样做，我们将很难将链路上的VoIP分组传输和文件传输、电子邮件传输区别开来。

联系我们

028-83110277

IP电话机、视频电话机供应商

手机：

成都世讯电科信息技术有限公司

成都世讯电科信息技术有限公司是一家多媒体融合通信解决方案及运营服务提供商，公司专注于为广大用户提供简单高效的通信产品和真正符合行业用户需求的行业应用解决方案，让用户享受到个性化、私密性强又具开放性、兼容性强又易于管理的高科技服务，帮助用户实现办公及运营通信的现代化与网络信息化。

公司拥专注于IP多媒体解决方案的应用与实施,有IP多媒体通信系统(IPBX)、IP多媒体通信平台定制与搭建（运营、对讲广播、门禁、调度、音视频会议及与视频监控交互式应用等）、IP电话机、视频电话机、项目租赁、云通信及系统集成等服务。

电话：028-83110277

Q Q：86313858

客服电话