2.1 概述
声音是携带信息的重要媒体。研究表明,人类从外部世界获取的信息中,10%是通过听觉获得的,因此声音是多媒体技术研究中的一个重要内容。
如图2.1所示,声音是由物体振动产生的,这种振动引起周围空气压强的振荡,从而使耳朵产生听觉。声音的种类繁多,人的语音是最重要的声音,此外,还有动物、乐器等发出的声音,风声、雨声、雷声等自然声音,以及机器合成产生的声音等。这些声音有许多共同的特性,也有它们各自的特性。在用计算机处理这些声音时,既要考虑它们的共性,又要利用它们各自的特性。
图2.1 空气压强振荡的波形
人耳能识别的声音频率(范围在20~20000Hz)通常被称为音频(Audio)信号。音频信号所携带的信息大体上可分为语音(Speech)、音乐和音效3类。语音是指具有语言内涵和人类约定俗成的特殊媒体,如人的发音器官发出的声音范围在80~3400Hz,人说话的信号频率通常为300~3000Hz,就是语音信号。低于20Hz的信号被称为次声波(Subsonic),高于20000Hz的信号被称为超声波(Ultrasonic)。对次声波和超声波,人的耳朵都无法听到。图2.2给出了声音的频率范围。音乐是规范的、符号化了的声音,音效是指人类熟悉的其他声音,如动物发出的声音、机器产生的声音、自然界的风雨雷电声等。音频信号可以携带大量精细、准确的信息。在多媒体系统中,处理的信号主要是音频信号。
声音包含3个要素,即音调、音强和音色,这3个要素与声波参数紧密相关。
(1)基频与音调:一个声源每秒钟可产生成百上千个波,通常把每秒钟波峰所产生的数目称为信号的频率,单位用赫兹(Hz)或千赫兹(kHz)表示。例如,一个声波信号在一秒钟内有5000个波峰,则可将它的频率表示为5000Hz或5kHz。
图2.2 声音的频率范围
人对声音频率的感觉表现为音调的高低,在音乐中被称为音高。音调正是由频率ω所决定的。音乐中音阶的划分是在频率的对数坐标(20×log)上取等分而得的(见表2.1)。
表2.1 音阶
(2)谐波与音色:n×ωo被称为ωo的高次谐波分量,也被称为泛音。音色是由混入基音的泛音所决定的,高次谐波越丰富,音色就越有明亮感和穿透力。不同的谐波具有不同的幅值和相位偏移,由此产生各种音色效果。
(3)幅度与音强:信号的幅度是从信号的基线到当前波峰的距离。幅度决定了信号音量的强弱程度。幅度越大,声音越强。对音频信号,它的强度用分贝(dB)表示。分贝的幅度就是音量。人耳对声音细节的分辨只有在强度适中时才最灵敏。人的听觉响应与强度成对数关系。一般的人只能察觉出3dB的音强变化。在处理音频信号时,绝对强度可以放大,但其相对强度更有意义,一般用动态范围定义,即
(4)音宽与频带:频带宽度也被称为带宽,它是描述组成复合信号的频率范围。例如,普通电话容许语音信号通过,带宽约为3.2kHz;高保真度(High-Fidelity,Hi-Fi)声音的频率范围为10~20000Hz,带宽约为20kHz。
客观上,通常用频带宽度、动态范围、信噪比等指标衡量音频信号的质量。音频信号的频带越宽,所包含的音频信号分量越丰富,音质越好。图2.3给出了CD-DA数字音乐、调频(FM)广播、调幅(AM)广播和电话的带宽。
图2.3 几种音频业务的带宽
动态范围越大,信号强度的相对变化范围越大,音响效果越好。
声音的质量可以通过信噪比来度量。信噪比(Signal to Noise Ratio,SNR)是有用信号与噪声的平均功率之比的简称,定义为:
信噪比越大,声音质量越好。