下图描述了在一个模拟声波中浊音与清音的振幅情况。图中把压力波看成与时间相关的波形,这是一个很普通的实例。其他的语言发音与此不同,但主要都是由喉腔或口腔发出的。这种模拟语音振幅的范围在现代语音数字化技术中是一个重要的特征。不过,在发音时不能仅仅根据音标,例如在英语单词“skate”中的爆破音“k”和“kate”中的清音“k”是完全不同的。
图 英语单词"salt"的发音波形
因为声带的振动是很稳定的,所以如上图一样,浊音的波形也很规则c另一方面,清音的波形则更具有随机性和不可预测性,这是因为在发音过程中,口型还可以变换。这些观察结果在现代语音数字化技术中也很重要。声音波形按音程重复,音程大小因人而异,尤其是在男性和女性之间差别更为显著。男性说话时其音程在5~20ms之间,而女性说话时却在2.5~10ms之间。浊音持续100~125ms,于是一个简单的浊音能到5至50个音高。让人奇怪的是,仅仅要听懂一个语音,并非所有的音程都必不可少,而且人们能够比发出声音更快地听懂某个声音。在一些电视商业中,把一些重复的音程从声音中去除掉,以使速度加快。结果发出的声音,听起来有些怪怪的,但是却说不出怪在哪儿。
再把话题转向电话发明之前,有关人类语音还有一个重要特征需要讨论。这就是在人类语音交流过程中静音也起着重要的作用。几乎在交谈中的任何时刻,听话的人几乎都是完全沉默的,不说话或者简短的一两个字是为了让说话的人知道他(她)正在认真听或者已经听懂,并让说话的人继续说下去。这种反馈的词语在两人交谈时频繁用到,有时当一个人向一群听众演讲时听众甚至根本什么话也不说。
此外,在一个句子或一个较长词组说完之后,说话的人还要呼吸,此时也是静音的一个来源。还有在构成一个词组的两个单词的发音之间甚至在一个多音节单词的两个音节之间也有静音。
在一个典型的两人交谈中,一个人或另一个人发声的时间占40%,足有50%的时间来自于一个人的静听,另外10%的时间则来自句句之间、词词之间和音节与音节之间的停顿。在打电话时,我们可以听到一些背景噪音,并不是明显的噪音源如电视、收音机等发出的噪音,而是一些持续的音量较低的噪音,我们把这种持续的背景噪音称作环境噪音。这种环境噪音的持续存在让电话两端的人在没人说话时也知道电话始终是通的而没有突然断线
人类语言可以概括出以下三个主要特征:
(1)语音是由髙幅声波和低幅声波混合而成;
(2)语音是由规则可预测声波和不规则不可预测声波混合而成;
(3)在双向的交谈中,儿乎有60%的时间是被静音占用。
任何一个语音数字化技术都必须考虑这三个语音的特征。如果有两种语音数字化技术,前一个只考虑了其中某一个特征,而后一个则同时考虑了这三个特征,那么可以断定,后一种方法一定优于前一种方法。