女皇萌雨 发表于 2015-7-8 20:14:44

维基百科&Adobe帮助:数字化音频&音频信号处理

本帖最后由 孟雨亲王 于 2015-7-8 20:14 编辑

一、了解声音
声波                           
声音始于空气中的振动,如吉他弦、人的声带或扬声器纸盆产生的振动。这些振动一起推动邻近的空气分子,而轻微增加空气压力。压力下的空气分子随后推动周围的空气分子,后者又推动下一组分子,依此类推。高压区域穿过空气时,在后面留下低压区域。当这些压力波的变化到达人耳时,会振动耳中的神经末梢,我们将这些振动听为声音。
当您看到表示音频的可视化波形时,它反映了这些空气压力波。波形中的零位线是静止时的空气压力。当曲线向上摆动到波峰时,表示较高压力;当曲线向下摆动到波谷时,表示较低压力。


表现为可视化波形的声波
      
A. 零位线 B. 低压区域 C. 高压区域
   

波形测量                            
                     
几个测量值描述了波形:
      
振幅 反映从波形波峰到波谷的压力变化。高振幅波形的声音较大;低振幅波形的声音较安静。

周期 描述单一、重复的压力变化序列,从零压力,到高压,再到低压,最后恢复为零。

频率 以赫兹 (Hz) 为单位测量,描述每秒周期数。(例如,1000 Hz 波形每秒有 1000 个周期。)频率越高,音乐音调越高。

相位 以度为单位测量,共 360 度,表示周期中的波形位置。零度为起点,随后 90º 为高压点,180º 为中间点,270º 为低压点,360º 为终点。

波长 以英寸或厘米等单位测量,是具有相同相位度的两个点之间的距离。波长随频率的增加而减少。


左侧为单个周期;右侧为完整的 20 Hz 波形
      
A. 波长 B. 相位度数 C. 振幅 D. 一秒
   

声波如何互相作用                           
                     
在两个或更多声波相遇时,它们会彼此相加和减去。如果它们的波峰和波谷完全同相,则互相加强,因此产生的波形的振幅高于任何单个波形的振幅。
如果两个波形的波峰和波谷完全异相,则会相互抵消,导致完全没有波形。
然而,在大多数情况下,各种声波会存在不同程度的异相,产生比单个波形更复杂的组合波形。例如,表示音乐、语音、噪声和其他声音的复杂波形结合了各种声音的波形。
      
      
因为其独特的物理结构,单个乐器可以产生极复杂的声波。这就是小提琴和小号即使演奏相同音符但听起来不同的原因。


同相声波互相加强。

异相声波互相抵消。

两个简单的声波组合成复杂的声波。


二、数字化音频

比较模拟和数字音频                            
在模拟和数字音频中,声音的传送和储存方式非常不同。
      
      
模拟音频: 正负电压
      
麦克风将声音压力波转换成电线中的电压变化:高压成为正电压,低压成为负电压。当这些电压变化通过麦克风电线传输时,可以在磁带上记录成磁场强度的变化或在黑胶唱片上记录成沟槽大小的变化。扬声器的工作方式与麦克风相反,即通过音频录音和振动中的电压信号重新产生压力波。
      
数字音频: 零和一
      
与磁带或黑胶唱片等模拟存储介质不同,计算机以数字方式将音频信息存储成一系列零和一。在数字存储中,原始波形被分成各个称为采样的快照。此过程通常称为数字化或采样音频,但有时称为模数转换。
例如,当您将麦克风的声音录制到计算机中时,模数转换器将模拟信号转换成计算机可以存储和处理的数字采样。

了解采样率                            
                     
采样率表示音频信号每秒的数字快照数。该速率决定了音频文件的频率范围。采样率越高,数字波形的形状越接近原始模拟波形。低采样率会限制可录制的频率范围,这可导致录音表现原始声音的效果不佳。
      

两个采样率
      
A. 使原始声波扭曲的低采样率。B. 完全重现原始声波的高采样率。

为了重现给定频率,采样率必须至少是该频率的两倍。例如,CD 的采样率为每秒 44,100 个采样,因此可重现最高为 22,050 Hz 的频率,此频率刚好超过人类的听力极限 20,000 Hz。
以下是数字音频最常用的采样率:
      

采样率
品质级别
频率范围

11,025 Hz
较差的 AM 电台(低端多媒体)
0–5,512 Hz

22,050 Hz
接近 FM 电台(高端多媒体)
0–11,025 Hz

32,000 Hz
好于 FM 电台(标准广播采样率)
0–16,000 Hz

44,100 Hz
CD
0–22,050 Hz

48,000 Hz
标准 DVD
0–24,000 Hz

96,000 Hz
蓝光 DVD
0–48,000 Hz


了解位深度                        
                     
位深度决定动态范围。采样声波时,为每个采样指定最接近原始声波振幅的振幅值。较高的位深度可提供更多可能的振幅值,产生更大的动态范围、更低的噪声基准和更高的保真度。
      
为获得最佳音质,Audition 在 32 位模式下变换所有音频,然后在保存文件时转换为指定的位深度。


位深度
品质级别
振幅值
动态范围

8 位
电话
256
48 dB

16 位
音频 CD
65,536
96 dB

24 位
音频 DVD
16,777,216
144 dB

32 位
最佳
4,294,967,296
192 dB


位深度越高,提供的动态范围越大。
      
以 dBFS 为单位测量振幅                            
                     
在数字音频中,幅度以满量程的分贝数或 dBFS 为单位测量。最大可能的振幅为 0 dBFS;所有低于该值的振幅均表示为负数。
                                 
注:         给定的 dBFS 值不直接对应于以声学 dB 为单位测量的原始声音压力级别。


音频文件的内容和大小                        
                     
硬盘中的音频文件(如 WAV 文件),包含一个表示采样率和位深度的小标头,然后是一长列数字,每个采样一个数字。这些文件可能非常大。例如,在每秒 44,100 个采样和每采样 16 位下,一个单声道文件每秒需要 86 KB,每分钟大约 5 MB。对于具有两个声道的立体声文件,该数字将翻倍到每分钟 10 MB。
      
      

三、音频信号处理

音频讯号处理,又称音讯处哩,音乐讯号处理等,可以用来调整音乐讯号的震幅、频率、波形等资讯。
利用一些简单的加减乘除,升降频,及window function,就可以做出想要的声音模型,创造属于自己的电子音乐。

音讯的来源
[*]当物体产生震动时,就会产生声音,举例来说:当用力挥动手掌时,就会产生声音。
[*]但是,在上述例子中,所听到的声音是来自于空气震动,而不是因为手掌摆动,
[*]原因是人耳可以听到的声音频率介于20到20000赫兹之间,所以我们可以听到空气振动产生的声音,却听不到手掌摆动产生的声音。

音讯的资讯
[*]声音讯号是一种力学波,因此在传播过程中是一种类比讯号,然而由于人耳是天然的傅立叶转换器,因此音讯经过人耳后会变成数字信号,在这些讯号中,有三个特征是处理时常考虑的部分:

[*]音量:从讯号来看,当音量代表的是讯号的震幅,讯号振幅越大,音量也越大。
[*]音频:讯号的频率,就是所谓的音频。其代表的是音调的高低,频率越高,音调就越高。除此之外,自然界产生的声音讯号,并非是单一频率的讯号,而是有基频和倍频的存在。
[*]音色:每一个人或乐器所发出的音色都不一样,从讯号上来看,音色就是讯号的波形,因此只要利用波形分析,就可以判断出声音的来源

音讯的档案
[*]音讯的档案储存可以分成压缩和无压缩两种,常见的无压缩档案格式为*.wav,而压缩档案格式为*.mp3,关于这一部分的详细资料可以参照音讯档案格式。声音档的存取时,主要有三个需要考虑因素:

[*]取样频率:在讯号处理中,取样频率所代表的是声音的品质,取样的频率越高,数字信号的波形越接近类比讯号的波形,因此声音的品质也越好。而在做取样时,必须遵守奈奎斯特频率,简单来说,频率在取样时至少要大于原讯号的2倍,才可以得到有意义的讯号。
[*]声音分辨率:存取讯号资料点所用的位元数,即代表其分辨率。所使用的位元数越大,每个资料点的数值就越精确,声音的分辨率也越好。比较16bit与8bit两种存取位元,16bit可以存取到较精确的数值,但是也会花比较大的硬件空间。
[*]声道:声道就是声音的来源数,常听到的单声道及双声道,代表的是声音是否有立体感。利用两个喇叭,拨放单声道的声音,左右两个喇叭发出的声音完全相同,因此会感觉声音是来自两个喇叭中间,但若是双声道声音,左右两个喇叭发出的声音有一定差异,因此会觉得声音听起来有立体感。

音讯的处理
[*]由于声音讯号是一段长时间的讯号,因此在处理时必须要分段进行,在处理之前会先开一个范围,选择出想要处理的部分,再针对范围内的部分做处理,声音资讯主要包含:音量、音色和音高,三个部分,也是最常处理的部分。
1.音量控制:音量是一种相对讯号,在讯号中代表得是振幅,其计算方式是将范围内的讯号取平方相加,在已10为底取log,单位是分贝(dB)如下公式:

但是,在对人耳来说,音量是一种主观的感受,根据佛莱彻森曲线(Fletcher-Munson Curve),虽然声音讯号的振幅相同,但是因为频率高低不同,对人耳的感受大小不同,相同声音强度,耳朵对低频的感受度较差。调整音量最简单的方式就是用加减法,首先把要处理的范围框出来,接着把计算出振幅大小,最后再减掉想要减少的振幅强度,就可以降低音量,反之用加法就可以增强区域的音量。
2.音频控制:音频是声音讯号处理的核心部分,最常用的简单处理方式是增频和降频。音频代表得是讯号的音高,中音Do的频率约在262Hz,在音乐中,有C(Do),#C(#Do,♭Re),D(Re),#D(#Re,♭Mi),E(Mi,♭Fa),F(Fa),#F(#Fa,♭Sol),G(Sol),#G(#Sol,♭La),A(La),#A(#La,♭Si),B(Si),12个特定的音频,其频率设定是以440Hz为标准音频,做进一步数学推算,其频率为440乘上2的n/12次方,其中n是上面列出的第几的音频。音频的处理最常用的是升频和降频,先选出想要处理的区域,接着做升降频的动作,这其中必须要注意奈奎斯特理论,避免讯号失真。
frequency = 2n/12 * 440
3.音色:每一组声音讯号的波形都不一样,其物理意义是音色,因此如果改变波形的变化,就可以产生出音色类似的声音,处理波形最简单的方法就是用window function,利用既有或自制的window function,做简单的convolution就可以改变讯号的波形。
4.倍频:声音讯号不是单一频率的讯号,而是有倍频的存在,因此若自制电子音乐时,必须注意这倍频对声音饱和度产生的影响。
5.端点侦测:端点侦测的目的是使讯号处理的范围更精确,方法很简单,只要设定一个音量阀值,若讯号小于阀值,则将其视为没讯号,但是若噪声过高,则会产生误差。

页: [1]
查看完整版本: 维基百科&Adobe帮助:数字化音频&音频信号处理