登陆注册
13955600000016

第16章 音频信息处理技术(1)

人类的信息交流是从语言开始的,语言承载信息并通过声音和人的听觉传达、接收信息。人类通过听觉得到的信息占利用各种感觉器官收集的总信息量的20%左右,可见声音媒体在传递和交换信息中所起的作用。声音是人类表达思想和情感最早和最方便的媒体,因此,音频信息处理是计算机多媒体信息处理必需的功能之一。

本章介绍音频信号数字化原理、音频信号的获取与处理、乐器数字接口MIDI,以及声卡的基本结构、工作原理、主要性能指标和功能。

4.1音频信号概述

1.信号的描述及分类

1)确定信号及随机信号

能够用一确定的时间函数来表示的信号就是确定信号。这种信号对应某一时刻都有一个确定的信号值。有一些信号具有不可预知的不确定性,这种信号就是随机信号。

后面要讲的音频信号、视频信号以至计算机中的数字信号均为确定信号。

2)周期信号与非周期信号

按一定时间间隔周而复始重复的信号就是周期信号,而在时间上不具有周而复始的重复特性的信号就是非周期信号。

3)连续信号与离散信号

信号随时间的取值是连续的,这样的信号就是连续信号。如果信号在时间上的取值是离散的,则这种信号就称为离散信号。可见,离散信号在时间上是离散的,但信号在幅度上可以是连续的,也可以是离散的。

4)模拟信号与数字信号

如果信号在时间上和幅度上都是连续的,那么这样的信号就是模拟信号。模拟信号以一定时间间隔取值,则可获得离散信号,又称之为采样信号。若将离散信号进行二进制编码,以二进制编码来表示离散值的幅度,那么这种二进制编码信号叫做数字信号。

模拟信号经过采样可获得离散信号,离散信号经A/D转换变成二进制的数字信号,数字信号可以由计算机直接进行处理了。

模拟信号、离散信号与二进制编码的数字信号之间的关系如图41所示,用连续变化的曲线表示模拟信号,用圆点表示以相等时间间隔取值而得到的离散信号,图41的纵坐标标出二进制编码值。

2.采样定理及信号重构

1)采样定理

设输入信号是带宽有限的信号,最高信号频率为fm,则从采样得到信号序列(离散信号)重构(复现)连续信号的条件是采样频率fs≥2fm,否则,将产生混叠效应,而使信号失真。频率2fm称为奈奎斯特(Nyquist)频率fq,即fq=2fm。时域信号及其傅里叶变换频谱密度如图42所示。

图42时域信号及其傅里叶变换频谱密度

2)信号重构

设时域信号为x(t),对应的频谱密度为X(f),若时域采样脉冲序列为

p(t)=∞n=∞δ(tnT)

是等间隔(T)的单位脉冲序列,由信号理论可知对应的频谱为

(f)=1T∞m=∞(fmfs)

是一个等间隔(fs)频域冲激序列。其中T是时域采样序列的周期,即采样频率

fs=1T

可以写出时域采样序列的表达式,即

x(t)=x(t)·p(t)=x(t)·∞n=∞δ(tnT)

x(t)就是x(t)在t=nT处的离散序列。

由卷积定理,时域的乘积对应频域的卷积,即

X(f)(f)=X(f)1T∞m=∞(fmfs)

因为(f)是一个冲激序列,卷积的结果相当于X(f)搬移至(f)序列出现的地方,从而成为周期函数。x(t)在时域的采样与X(f)在频域卷积(搬移)的关系如图43所示。

可见,若fs=1/T不是足够大,采样以后对应的频谱就会产生混叠,用矩形(带通)滤波器滤波所得的主频谱就会失真,恢复到时域以后,时域连续信号也将失真。因此,采样频率fs必须满足采样定理的要求,即fs≥2fm。

4.2音频信号的获取与处理

4.2.1音频信号

1.常见音频信号

常见的音频信号主要有电话音频信号、调频、调幅无线电广播音频信号和高保真数字的立体声音频信号。由于用途不同,这些音频信号频带宽度也各不相同,而且,在音响设备中,通常以音频信号的带宽来衡量声音的质量。图44中表示了这4种常见音频信号的带宽。其中,等级最高的是激光唱盘的音频信号;其次是调频无线电广播,调幅无线电广播;最低的是电话话音的频带,从0.2kHz到3.4kHz,带宽只有3.2kHz。

2.声音的特性

1)声音的波动性

任何物体的振动通过空气的传播都会形成连续或间断的波动,这种波动引起人的耳膜振动,变为人的听觉。因此,声音是一种连续或间断的波动。

2)声音的三要素

音调、音强和音色称为声音的三要素。其中,音调与声波的频率相关,频率高则音调高,频率低则音调低。音调高时声音尖锐,俗称高音;音调低时声音沉闷,俗称低音。人的耳朵对于声音的感知频率范围为20Hz~20kHz。低于20Hz的声波为次声波,高于20kHz的声波称为超声波。音强取决于声波的幅度,振幅高时音强强,振幅低时音强弱。音色则由叠加在声音基波上的谐波所决定,一个声波上的谐波越丰富,音色越好。

3)声音的连续谱

声音信号一般为非周期信号,包含有一定频带的所有频率分量,其频谱是连续谱。声波的连续谱成分使声音听起来饱满、生动。

4)声音的方向性

声音的传播是以弹性波形式进行的,传播具有方向性,人通过到达左右两耳声波的时间差及声音强度差异来辨别声音的方向。声音的方向性是产生立体声效果和空间效果的基础。

3.音频的种类

在自然界中,声音包含声响、语音和音乐等三种形式。在多媒体系统中,声音不论是何种形式都是一种装载信息的媒体,统称为音频。由产生音频的方式不同音频被分为波形音频、MIDI音频和CD音频三类。

1)波形音频

以声波表示的声响、语音、音乐等各种形式的声音经过声音获取设备(如麦克风)和声音播放设备(如录音机、CD唱机等)输入,并通过声卡控制采样,由A/D转换将模拟信号转变成数字信号,然后以“*.WAV”文件格式存储在硬盘上,这种声音媒体称为波形音频。波形音频重放时,必须经过D/A转换将数字信号转换成模拟信号,由声卡上的混音器混合后生成声波,再由音箱输出声音。

波形音频的“*.WAV”文件中记录的是数字信号,可以使用计算机对“*.WAV”文件进行各种处理,并像其他数据文件一样被存取、复制和传输。

2)MIDI音频

将电子乐器演奏时的指令信息(如音高、音长和力度等)通过声卡上的MIDI控制器输入计算机,或者利用一种称为音序器的计算机音乐处理软件编辑产生音乐指令集合,以“*.MID”文件格式存储在硬盘上,这种声音媒体称为MIDI音频。MIDI音频重放时,必须经过合成器将MIDI指令译成相应的声音信号,再由声卡上的混音器混合后生成声波,最后由音箱播出音乐。

MIDI音频的“*.MID”文件中可以包含多达16种不同乐器的声音定义。MIDI文件记录的不是乐曲本身,而是一些描述乐曲演奏过程的指令,因此,MIDI音频是乐谱的数字化描述。MIDI文件的存储量比较小,因此,它可以满足较长时间音乐播放的要求,但是MIDI文件的录制工作较为复杂,需要使用MIDI创作并改编作品的专业知识以及专门化工具,如键盘合成器等。

3)CD音频

CD音频是指以44.1kHz频率、16位精度采样而获得的一种立体声数字化声音。

4.2.2音频信号的获取与处理

1.音频信号的获取

音频信号的获取框图如图45所示,音频信号首先由话筒产生,话筒输出的信号幅度比较小,因此,接下来要对音频信号进行放大,以便使其幅度达到后面采集与转换电路的要求。

同时,音频信号应根据不同的需要用滤波器进行滤波。滤波器的通频带对于不同的信号是不一样的。如前所述,电话和广播的要求就相差很大。利用滤波器,一方面滤除了一些高频干扰和噪声,同时也使音频信号的最高频率成分限制在一定的范围内,以便对其进行采样。利用图45所示的采样及保持电路,就可将前面得到的音频信号离散化。每一个离散的音频信号幅度值加到A/D转化器上,就可将音频信号变为二进制数字编码,再经过计算机的输入∕输出接口,便可以将数字化的音频信号取到计算机中。

依据采样定理,不同带宽的音频信号使用不同的采样速率。例如,电话话音的采样频率通常为8kHz,而高保真的音乐信号则用44.1kHz采样。

2.音频信号的处理

在实际使用中,不管多媒体信息是音频信号还是视频信号,其数据量都是十分巨大的。如图45所示的那样,经A/D转换的数字化音频信号直接进入计算机进行存储(记录)或进行传送,是不可取的。

3.音频信号的回放

经压缩的音频信号以一定的格式记录在有关的媒体上,例如,磁带、磁盘及光盘等,或者以一定的格式传送到接收端。

在音频信号接收端或由媒体回放音频信号时,首先由专用的硬件或软件对压缩数据进行解压缩,恢复音频数字信号,然后,经由图46所示的电路框图对音频信号进行放音。

4.有关音频信号的标准及规范

这里,首先阐明数字电话音频信号的数据压缩标准。在表41中列出了国际电报电话咨询委员会(CCITT)、欧洲移动通信专家组(GSM)、美国移动通信标准(CTIA)及美国国家安全局(NSA)各自制定的有关电话通信的编码标准。表中还给出了各种标准的大致使用领域以及它们的质量,其中,质量是以最高为5.0分来表示的。

除了上面所提到的数字电话编码标准外,调幅广播的音频信号范围为50Hz~7kHz,又称“7kHz音频信号”,其最高频率为7kHz,当使用16kHz对其采样并进行14位二进制编码时,其数据的传送速率为224kbps。为了对最高频率进行压缩,CCITT于1988年为其制定了G.722标准,标准规定这种信号的数据传送率为64kbps。

5.常用语音文件格式

多媒体计算机的语音处理或在后面将要说明的声卡中所用到的操作系统或工具软件为我们提供了语音文件。这些语音文件都有各自的标准,以便于用户使用和相互转换。这里将简要介绍目前最常见的语音文件格式。

1)VOC语音文件格式

VOC语音文件由文件头和数据块两大部分组成。其中VOC语音文件的文件头如表42所示,VOC文件的文件头主要是对VOC文件的类型、版号及标志作出说明,同时,指出了数据块的偏移地址、数据块长度及采样率。

VOC文件中数据块由性质不尽相同的子块组合而成。各子块的功能及其长度也各不相同,如有语音数据子块、静音标志子块、ASCII码字符子块、循环重复子块、终止子块及用于立体声音响的扩展子块等。VOC文件中数据子块的长度及主要功能列于表43中。

不同子块的开始几个字节除前面4个如上所述外,剩下的不太相同,表43中用?表示。例如,1号数据子块的开始字节中,有规定本数据块的数据压缩比的字节。知道了压缩比,就可以解压缩恢复原始的语音数据。

2)WAV语音文件格式

在多媒体应用中被广泛使用的是RIFF(ResourceInterchangeFileFormat)标准给出的WAV语音文件。与VOC文件类似,WAV文件也是由文件头和数据块两部分组成,其中文件头所规定的内容如表44所示。

由表44可见,WAV语音文件头也对文件设置了一些标志并确定了对语音信号的采集速率。单声道语音信号用11.025kHz的采样率采样,采样值为8bit二进制编码,双声道语音信号用44.1kHz采样率采样,即左右声道各为22.05kHz采样,每声道采样值用8bit二进制编码表示,这样一来,每个语音采样值要用16bit表示,且高8位放左声道的数据,低8位放右声道的数据。具体数据块的存放情况如表45所示。

表45表明,数据块紧跟在文件头的后面,其偏移地址从1EH开始,前面是数据块的标志和数据块的总长度。从偏移地址26H开始存放语音数据。

以上简单地介绍了两种语音文件VOC和WAV,其中VOC是声霸卡所形成的文件格式,WAV是Microsoft的语音文件格式。在实际应用中,经常需要知道这些语音文件的格式,而且也经常会遇到由WAV文件向VOC文件转换或由VOC文件向WAV文件转换。所幸的是这两种文件的相互转换已有现成的程序可供调用,使用者只要用一条简单的命令即可方便地完成它们之间的相互转换。但是,由于两种文件的复杂性,在利用软件命令进行两种文件格式转换时,应注意,WAV文件只支持11.025kHz、22.05kHz和44.1kHz采样率,因此,在形成VOC文件时也要采用这样的采样率才能顺利地进行相互转换。

VOC文件中可包括多个数据块,而WAV文件只支持一个数据块,且只能用一种采样速率播放出来。因此,在WAV和VOC文件相互转换时,只能是功能强的VOC文件来适应WAV文件的规定。同时,WAV文件不支持压缩文件,因此,当VOC文件向WAV文件转换时,VOC文件中的压缩数据块将被忽略。

3)AU声音文件格式

AU文件是使用于UNIX操作系统下的一种波形文件,其格式如表46所示。

4)MID文件格式

MID文件是一种记录数字化音乐的MIDI文件,由一个文件头块和多个音轨块组成。文件头块记录了MIDI文件的描述信息,而音轨块记录了MIDI通道的数据流信息。MID文件头块和音轨分别如表47和表48所示。

4.3.1计算机音乐

计算机音乐也称为电子音乐,是由计算机音乐软件创作、修改和编辑乐谱,通过合成器把数字乐谱变换成声音波形,再经过混音器混合后送到音箱播放的乐曲。计算机的数字合成技术可以模拟传统乐曲的音色,也可以通过计算机的编辑功能合成不是自然乐器发出的声音。计算机音乐改变了传统音乐创作和演奏方式的概念。

1.乐音的几个要素

一个乐音主要由3个要素组成:音高、音色、响度。

1)音高

音高指声波的基频。各音阶对应的频率如表49所示。知道了音高与频率的关系,就能够设法产生规定音高的单音了。

2)音色

同类推荐
  • 组态软件控制技术

    组态软件控制技术

    监控组态软件是完成数据采集与过程控制的专用软件,它以计算机为基本工具,为实施数据采集、过程监控、生产控制提供了基础平台和开发环境。本书从应用角度出发,详细介绍了组态软件应用程序的开发过程。对窗口界面编辑、动画链接、实时和历史趋势、安全机制、I/O设备连接,以及生产应用等内容都做了非常详细的介绍。MCGS是优秀的监控组态软件之一,它功能强大、使用方便,可以非常容易地实现监视、控制、管理的各项功能,并可提供软、硬件的全部接口,方便、快速地进行系统集成,构成不同需求的数据采集与监控系统。本书可作为高等学校计算机应用、自动控制、电子技术、机电技术专业的教材,同时还可作为相关专业工程技术人员的自学用书。
  • 黑客就在你身边

    黑客就在你身边

    互联网络正在改变着我们的生活,每个人都处在互联网的天罗地网之中。本书以轻松的笔调,向人们介绍了有关“黑客”的知识。当你读完这本书后,你会发觉“黑客”一点都不神秘,他们渴望全社会对他们有一个公正的评价。
  • 如何处理电脑故障

    如何处理电脑故障

    本书以问答的方式介绍了电脑会出现的各种故障,内容包括了音箱声音失真,如何处理?如何做好电脑的日常维护等等问题。
  • 一本书读懂大数据

    一本书读懂大数据

    本书是深入研究互联网思维的经典之作,从互联网思维的定义到互联网思维应用的具体案例表现。作者深入浅出、条分缕析,全面阐述互联网思维的内核与精神,逐一点评当前关于互联网思维的各种观点。本书从最初级的互联网思维应用到高端的粉丝经济,平台建设,自媒体营销的方法都有详细讲解介绍。让读者了解什么是互联网思维的同时还能学会把互联网思维运用到自己的工作学习已经生活中。
  • 公开时刻

    公开时刻

    本书从传播者分析,内容分析,媒介分析受众与效果分析,传播环境与传播控制分析等几大方面把汶川地震作为重大传播案例,阐释汶川地震的传播学遗产。对政府部门和新闻媒体在危机公关方面做出正面评价。
热门推荐
  • 思念不复铭

    思念不复铭

    青春里的我们都很简单简单到发一条短信都要删删减减简单到一个眼神都能开心几天简单到,说喜欢一个人,就用整个青春去承载对他的欢喜。
  • 穿越之青楼格格

    穿越之青楼格格

    一刀把她送到了大清朝,歹命的是做老鸨子的娘被劫持了,她要去找她。可是,不幸也同样降临到了她的身上,她被选中秀女了,她的那个他成了别人的上门女婿。怎么办?劳燕分飞吗?
  • 神话2三国绝恋

    神话2三国绝恋

    主人公易小川通吃三国名将,赵云、吕布、关羽、张飞、许褚、典韦、太史慈、孙策全都不在话下。不仅单挑名将,更勇闯数十万大军,统帅百万军队战斗,打斗精彩,场面宏大,不容错过。
  • 狂医毒妃:皇叔太放肆!

    狂医毒妃:皇叔太放肆!

    她,大婚当日被太子抛弃,成为全城笑柄。遭威胁若不嫁,必死无疑。结果,顺手捡个便宜皇叔被吃死了怎么办?她有些头疼地望着他,“本为约定,为何不放手。”他冰冷的容颜缓缓绽放出丝丝笑颜,瞬间封禁她整颗乱跑的心。她心跳猛烈,没控制住直奔人家怀中扑去,“嗷!你不用说了,我愿意嫁!”然-背后却传来危险气息,“我说过,你不嫁太子,必死无疑,丫头,你想怎么死?”--情节虚构,请勿模仿
  • 农家小皇妃

    农家小皇妃

    前世被掉包的千金小姐云清,本该拥有的一切被另一个女子取代,谨小慎微活了半辈子,还是难逃被渣男贱女害死。死后重生,回到乡下,恶霸奶奶,白莲花妹妹。还有个莫名其妙捡到个身份神秘的俏公子?从乡下到深宅,步步为营,云清伪装成白莲花,含笑逼死前世所有对不起她的人。这里复仇正爽呢,突然一道圣旨让她入宫为妃是怎么回事啊喂?!
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!
  • 异世绝神

    异世绝神

    原来的世界,留给我的除了那如阳光般温暖的亲情,更多的是对世界的厌恶,因为我只是一个生活在世界底层的人,可是,一场意外却让我来到了这,既然没了我赖以生存的亲情,我只好用我得到的力量站在这个世界的巅峰,我不要受到他人的支配,我要主宰所有人的命!对,我还要回家,那里有我要保护的人,用尽所有的力量找寻回家的路,在此之前,谁若阻我,我将成为他永世的噩梦!就算是神,我也必将其打落神坛!
  • 清冷少爷最情深

    清冷少爷最情深

    她曾经以为自己活得最自由,最简单,她以为自己可以一直这样,幸福的朝梦想努力下去,却不知,命运的天平已经倾斜,身世的秘密被揭开,打破了她的平静,为了她所珍视的一切,她不得不被迫与他相遇。在别人眼中,他是冷的,无情的,没有什么东西可以让他在乎,但是,没有人知道,她,是他心中永远的阳光,为了这片阳光,他可以付出一切。
  • 帝少追妻老婆我错了

    帝少追妻老婆我错了

    男强女强,男比女强,一对一,双洁“老婆,你看今天花好月圆的要不咱俩今晚……”某帝少臭不要脸的说道“哦?今晚干什么?”某女王拿着小皮鞭挑眉到“!!!今晚好好睡觉,早点休息!”某帝少很没骨气的怂了,但心里摸摸打着算盘打算下次再战某帝少:天大地大老婆最大,惹不起惹不起……(注:女主是杀手)
  • 掩护

    掩护

    温亚军,现为北京武警总部某文学杂志主编。著有长篇小说伪生活等六部,小说集硬雪、驮水的日子等七部。获第三届鲁迅文学奖,第十一届庄重文文学奖,《小说选刊》《中国作家》和《上海文学》等刊物奖,入选中国小说学会排行榜。中国作家协会会员。