IP电话参数编码的基本原理及语音信号产生的数学模型

时间：2019-09-22 08:29 作者：admin 分享到：

IP电话参数编码器又称声码器（Vocoder)，参数编码的基本思路是根据对声音形成机理的分析，着眼于构造语音生成模型，该模型以一定精度模拟发话者的发声声道，接收端根据该模型还原生成发话者的音素。
1.、IP电话参数编码的基本原理
参数编码器是根据对声音形成机理的分析，着眼于构造语音生成模型，发送的主要信息就是该模型的参数，相当于语音的主要特征，而不是具体的语音波形幅值。由于语音信号变化缓慢，-个音素要持续相当长-段时间（相对于采样周期而言），因此模型参数的更新频度较低，不但叫以利用采样值间的相关性，还可以充分利用帧与帧之间的信息冗余性以及更长时间段中的音源信息冗余性，有效地降低编码比特率。因此，目前小于16 kbit/s 的低比特率语音编码都采用参数编码，在IP电话系统中得到了广泛的应用。
2.、IP电话语音信号产生的数学模型
为了说明参数编码原理，下面简单介绍一下语音特征分析和声音的形成机理。语音形成的大致过程如下：从肺部压出的空气由气管到达声门，气流流经声门时形成声音，然后再经咽腔，由口腔或鼻腔送出。其中咽腔和口腔、鼻腔构成由多节声管组成的声道，当腔体呈不同形状，舌、齿、唇等处于不同位置时，就形成不同特性的滤波器，气流通过该滤波器后产生相应的频响输出，从而发出不同的音素。
音素可分为两类，伴有声带振动的浊音和声带不振动的清音。由于声带振动有不同的频率，因此浊音就有不同的音调，称之为基音频率。基音频率的变化比较缓慢，它反映了语音的长时相关性。另外气流压Mi的不同强度就对应为声音的音量大小。
从频域角度看，浊音气流流经声道后，其幅频特性在声道的滤波作用下将呈现两个显著的特点。一是幅频频谱的包络有儿个明显的局部最大值，称之为共振峰。在这些频率点处，反射波相互叠加，声波能量加强。共振峰可以识别音素，而一个音素持续的时间相对较短（音节时间），因此频谱包络反映了语音的短时相关性。二是频谱的精细结构呈现周期性，即每隔一定频率间距出现•个峰值，该间距对应的就是基音频率。而且频谱的能量主要集中在低频段，超过4 kHz后频谱迅速下降。
清音的频谱特性和浊音有很大差别。因为声带没有振动，所以频谱形状没有周期性，峰值的分布也没有明显的规律，整个频谱相对比较平坦，反映了清音音源类似于白噪声，而且清音的频谱能量集中在高频区，即使超过8 kHz频谱也没有显著的下降。
根据上述分析得到的语音生成的数学模型如下图所示，该模型由声源和声道两部分组成，声源包括激励信号和增益。浊音的激励源为一串周期性的脉冲，脉冲周期即基音周期；清音的激励源为白噪声信号。增益反映信号的强弱，用开关来表示清/浊音判决。声源决定了语音信号频谱的精细结构，即语音的长时相关性。声道由滤波器组成，决定了语音频谱的包络特性，即反映了语音的短时相关性。

语音的数学模型表明对声码器进行语音编码可得到以下4类参数：
•若干定义声道共振特性的滤波器系数；
•一个二进制参数（表明激励源是清音还是浊音）；
•激励源能量值；
•基音周期值（当激励源是浊音时）。
由于音素至少持续几十毫秒，因此可以近似认为在短时间内上述数学模型为一个线性时不变系统声道参数只要计算一次即可适用于所有采样值。这段时间就称为一帧，一般为10〜30 ms。也就是说，利用语音频谱的短时相关性和长时相关性叫以有效地降低编码的比特率。