IP电话机、视频可视电话通信产品及组网方案

IP电话参数编码的基本原理及语音信号产生的数学模型

时间:2019-09-22 08:29 作者:admin 分享到:
        IP电话参数编码器又称声码器(Vocoder),参数编码的基本思路是根据对声音形成机理的 分析,着眼于构造语音生成模型,该模型以一定精度模拟发话者的发声声道,接收端根据 该模型还原生成发话者的音素。
        1.、IP电话参数编码的基本原理
         参数编码器是根据对声音形成机理的分析,着眼于构造语音生成模型,发送的主要信 息就是该模型的参数,相当于语音的主要特征,而不是具体的语音波形幅值。由于语音信 号变化缓慢,-个音素要持续相当长-段时间(相对于采样周期而言),因此模型参数的更 新频度较低,不但叫以利用采样值间的相关性,还可以充分利用帧与帧之间的信息冗余性 以及更长时间段中的音源信息冗余性,有效地降低编码比特率。因此,目前小于16 kbit/s 的低比特率语音编码都采用参数编码,在IP电话系统中得到了广泛的应用。
         2.、IP电话语音信号产生的数学模型
为了说明参数编码原理,下面简单介绍一下语音特征分析和声音的形成机理。语音 形成的大致过程如下:从肺部压出的空气由气管到达声门,气流流经声门时形成声音,然 后再经咽腔,由口腔或鼻腔送出。其中咽腔和口腔、鼻腔构成由多节声管组成的声道,当 腔体呈不同形状,舌、齿、唇等处于不同位置时,就形成不同特性的滤波器,气流通过该滤 波器后产生相应的频响输出,从而发出不同的音素。
         音素可分为两类,伴有声带振动的浊音和声带不振动的清音。由于声带振动有不同 的频率,因此浊音就有不同的音调,称之为基音频率。基音频率的变化比较缓慢,它反映 了语音的长时相关性。另外气流压Mi的不同强度就对应为声音的音量大小。
         从频域角度看,浊音气流流经声道后,其幅频特性在声道的滤波作用下将呈现两个显 著的特点。一是幅频频谱的包络有儿个明显的局部最大值,称之为共振峰。在这些频率 点处,反射波相互叠加,声波能量加强。共振峰可以识别音素,而一个音素持续的时间相 对较短(音节时间),因此频谱包络反映了语音的短时相关性。二是频谱的精细结构呈现 周期性,即每隔一定频率间距出现•个峰值,该间距对应的就是基音频率。而且频谱的能 量主要集中在低频段,超过4 kHz后频谱迅速下降。
         清音的频谱特性和浊音有很大差别。因为声带没有振动,所以频谱形状没有周期性, 峰值的分布也没有明显的规律,整个频谱相对比较平坦,反映了清音音源类似于白噪声, 而且清音的频谱能量集中在高频区,即使超过8 kHz频谱也没有显著的下降。
        根据上述分析得到的语音生成的数学模型如下图所示,该模型由声源和声道两 部分组成,声源包括激励信号和增益。浊音的激励源为一串周期性的脉冲,脉冲周期即基 音周期;清音的激励源为白噪声信号。增益反映信号的强弱,用开关来表示清/浊音判决。 声源决定了语音信号频谱的精细结构,即语音的长时相关性。声道由滤波器组成,决定了 语音频谱的包络特性,即反映了语音的短时相关性。
          语音的数学模型表明对声码器进行语音编码可得到以下4类参数:
•若干定义声道共振特性的滤波器系数;
•一个二进制参数(表明激励源是清音还是浊音);
•激励源能量值;
•基音周期值(当激励源是浊音时)。
        由于音素至少持续几十毫秒,因此可以近似认为在短时间内上述数学模型为一个线 性时不变系统声道参数只要计算一次即可适用于所有采样值。这段时间就称为一帧, 一般为10〜30 ms。也就是说,利用语音频谱的短时相关性和长时相关性叫以有效地降 低编码的比特率。

版权所有:IP电话:http://www.g3voip.com 转载请注明出处

热销IP电话产品hot products