IP电话低速率语音编码器减少编码比特率的几种措施

时间：2019-09-22 16:00 作者：admin 分享到：

IP电话低速率编码以语音信号产生的数学模型为基础，提取最能表示语音特征的参数，尽量去掉冗余或者人耳不敏感的信息，采用的具体措施主要体现如下。
(1) 尽量减少语音信号中的冗余度
语音信号主要存在两方面的冗余度，分别是语音信号幅度分布的非均匀性和样本之间的相关性。非均匀性表现为小幅度语音信号出现的概率大，而大幅度语音信号出现的概率小。非均匀量化技术正是针对语音信号的这一特点而提出的，如ADPCM编码算法。语音中存在两种类型的相关性，即样点之间的短时相关性和相邻基音周期之间的长时相关性，利用语音信号的这些相关性，在实现低速率编码时，也能保持较高的语音编码质量，如线性预测算法就是利用这一原理。
(2) 充分利用人耳的听觉特性来减少编码信息
人耳对语音信号的听觉特性表现在3个方面：一是人耳对语音信号的分辨率有限；二是人耳对语音信号某些失真不是很敏感；三是人耳的掩蔽效应。因此，低速率高品质语音编码算法的实现就是基于人耳的这些听觉特性。例如.由于人耳对语音信号的幅度分辨能力是有限的，因而在对语音信号进行量化时，首先可以去掉语音信号所携带的相对于人耳来说无法感觉或感觉不是很敏感的信息。其次，利用人耳对某些失真不敏感的特性，如线性预测声码器利用人耳对语音信号的相位不敏感的特点，在编码时就可以忽略语音的相位信息，这样，既可以降低语音编码速率，又能使人耳感觉不到语音质量的下降。掩蔽效应是指在语音频谱中能量较高的频段处（共振峰处）的噪声相对于能量较低频段的噪声而言不易被感知，因此在计算合成语音信号与原始语音信号之间的误差时可以考虑这一因素，在语音能量高的频段，允许二者的误差大一些，而在能量较低的频段则小一些。 G. 723. 1编码器中使用的感觉加权滤波器就是利用这一原理。
(3) 静音压缩
测试表明，人在正常谈话时，有50%左右是静音，而静音特征信息只需很少儿个参数 (4字节/帧）来表示。静音编码主要由两个算法组成：语音检测（VAD，Voice Activity Detection) 和舒适噪声再生（CNG，Comfort Noise Generator)。 VAD 是用来检测输入的信号是实际语音信号还是背景噪声。如果检测到是语音信号，则对语音信号进行固定速率的编码；如果输入信号被检测为背景噪声，编码器则对其进行更低速率的编码。CNG的作用是在语音信号的接收端重构背景噪声。
(4) 线性预测合成分析（LPAS)编码器
线性预测合成分析编码器是应用得最广泛的参数编码器，其原理结构如图1所示。

图 1 线性预测合成分析编码器结构
从图1屮可看出语音先经过输入预处理模块进行预处理，输入信号预处理的作用就是对信号进行简单的时延处理或较为复杂的时间变换处理，以掩蔽相位误差。它可以有效地提高基音预测的编码效率。
激励生成器产生的激励信号经线性预测合成滤波器后得到重构的语音信号，线性预测合成滤波器模拟声道特性，加强激励信号的某些频率域，减弱一些频率域，体现了语音的短时相关性。激励信号则体现了语音的长时相关性，输入线性预测合成滤波器的激励信号是量化后的增益和基音信号。由于量化误差的影响，重构信号和输入信号之间必然存在有限的差值，称之为残差信号，误差最小化过程的目的就是调整激励信号，使残差的方差最小，由此构成确定激励信号的闭环回路。为了减小量化比特，提高编码效率，激励生成器输出的是残差信号估值，而不是原信号估值。从频域上来说，最小化过程使激励信号量化噪声的能量集中在预测滤波器的低谷部分，从而使量化噪声呈现平坦的类似白噪声的功率频谱。
经过最小化过程确定的激励信号量化值就是声码器的输出，接收端的解码器根据此信号和同样的线性预测合成滤波器恢复原来的语音信号。图3-2-2虚框部分所示闭环回路的下半部分就是解码器的结构，因此该结构的编码器已内含解码器。
在线性预测合成分析使用的基本算法编码过程如图2所示。在编码过程屮，使用个闭环优化过程来决定激励信号，然后用这个激励信号去激励一个长时预测合成滤波器和一个短时预测合成滤波器，从而产生•个听觉上优化了的合成语音信号。激励信号是从一个采样数据块中遵循最小均方差的原则选取的，误差信号为原始语音信号与解码语音信号之差，并通过加权滤波器滤波。

图2 线性预测合成分析编码算法的基本流程
在IP电话系统中得到广泛应用的G. 723. 1和G. 729A编码器的基础就是线性预测合成分析编码器。
(5) 参数编码标准
目前主要的语音参数编码国际标准和地区性标准主要是由ITU-T和数字蜂窝标准组织制订的，主要有G. 728、G. 729、G. 729A、G. 723. 1、GSM全速率、GSM半速率、IS54、 IS96、JDC全速率和JDC半速率。