论文部分内容阅读
声音长什么样子
上一节说了,声音是由振动产生的,并且讲了一些关于振动的时间(起振、稳态、衰减)的问题。可是,显然这样距离度量声音远远不够,否则,一个12寸的镲片和钢琴听起来应该差不多才对。我们需要一种能描述或者界定声音的方法,这样当你想让远方的朋友了解你新买的钢琴声音的时候,只要靠语言和参数描述就行了,而不必把你的钢琴寄过去给人家弹。
通常来说,我们用音长、音高、音强、音色四个参数来描述一个乐音,从物理的角度说,他们分别对应着声音的时程(时间长度)、频率、声压级(或声强级)和频谱结构。客观的说,这种对应并不是严格的一一对应关系,而只是主要的决定因素而已。换句话说,音高并不是完全由频率来决定,频谱结构也要比音色更复杂一些。这种更深入的讨论我们以后可能会提到,至于更严肃的学术问题,还是留给声学物理学家好了,我们先讨论音频工作能立刻用上的事情吧。
事实上,相比起"光"这种电磁波来说,由于声音是低速、长波长的机械波,因此极容易受到周围环境的影响,并且很容易发生衍射等波现象。用一块木板可以挡住光,而在后面留下阴影;可是用同样的一块木板根本无法挡住声音。用双手捂住眼睛,就什么也看不见了;可用双手堵住耳朵,一样还能听见声音,只不过是弱了一点而已。
声音的这种特性使得要完全驾驭它非常困难。以至于现有的量化参数并不足以完整的描述声音或者音频设备。比如喇叭单元或者麦克风振膜的瞬态响应,目前只能以"快"和"慢"来形容,而没有将其数值化的方法。因此搞音频工作,或者选择音频设备,切记"眼见为虚,耳听为实",两个参数一样的音箱也许声音大大不同,从频谱仪上看差不多的两段音频也可能相差甚远。好在目前依靠参数加主观描述的方法还是能够将一个声音的大部分特征表现出来的,我们在看音频设备的评测文章的时候,如果能将技术参数和作者主观性的描述结合起来分析,也可以对设备有一个大致准确的印象。
声音的时间问题我们在上一节中已经有所了解了,在此不多赘述。声音的强度用dB(分贝)来表示,我不打算抄太多教科书上的文字,因此也不在这里重复"分贝"的基础概念了。不过我见到偶尔会有初学者把物理世界的"分贝"和电平表上的"dB"搞混。当我们提到诸如"办公环境噪声60dB"或者"监听音量85dB"的时候,指的是声音的物理声压;
而在调音台和音频工作站中的电平表则将设备能容纳的最高电平设定为0dB,以此为标准,设立的电平指示当然是0以下的-xxdB了,很多设备为了保证超过0dB也不会立刻过载失真,往往会在0dB以上预留一些动态余量(headroom),这样在电平表上的标示就成为+x dB。动态余量是为了确保音频设备声音不失真的"安全措施",因此在调节电平的时候还是应该把电平定在接近而不超过0dB的位置,不要把headroom用光。

一个电平表的例子。可以看到中间的两根色柱指示峰值电平(PEAK),而两边的两根细的色柱则表示平均电平(RMS)。在电平表的下部有数值显示,这是绝大多数软件电平表的显示方式。
乐音的音高主要由频率决定。人耳的可听范围为20Hz-20kHz,这是个什么概念呢?与光比较,可见光的波长范围大约是380nm~760nm(纳米),相差不过2倍左右,而听觉范围上下限相差达1000倍,可以想象这个宽度了吧。以440Hz为标准A音,那么钢琴的最低键A2频率在大约27.5Hz左右,最高键C5频率为4186Hz。这里是指基频的频率,钢琴的谐波频率可达8kHz以上。由于人耳的实际听觉特性,大部分的乐器在50Hz以下和16kHz以上都没什么作为,反倒是本底噪声在这两个区域内比较集中,因此在混音时要注意使用高通和低通效果器把不用的频段切掉。本底噪声虽然在混音中并不容易听见,但是它们会吃掉动态范围,使混音变浑浊。
在十二平均律中,一个倍频程被平均分成12个相等的音程,每一个音程称为"半音"。换句话说,两个八度关系的音,他们的频率刚好相差一倍。这也是"十二平均律"的由来:12个音程,平均分割。然而在现实的工作中觉得以半音为单位不够精确,因此有了"音分"的概念。
将每个半音在平均分成100份,每一份为一个音分。有了十二平均律的音高关系,就可以计算出各音高的频率。比如标准A音为440Hz,那么高八度的A音频率为880Hz,将这两个频率之差除以12即为该八度之间每半音的频率差。
绝大部分自然产生的声音都不是单一的频率。拿起电话听到"嘟——"的待机声,这是人工合成的单一频率的声音。不怎么好听是吧?想象一下如果我们的音乐全部由这种声音组成,那该有多么乏味。好在实际的情况并不是这样,现实中绝大部分能震动发声的东西都不会发出单一频率的正弦波声音,而是会发出由多种频率成分复合在一起的复合声音。一般来说,乐音的音高是由其频率成分中最低的频率决定的,我们称之为"基频",其余频率称为"谐波"或者"谐频"。
频谱结构指的也就是谐波的成分,以及基频与谐频、谐频与谐频之间的关系。如果一个声音的谐波很少而且强度也很小,那么声音听起来就很纯很单调,例如风琴管或音叉,以及前面提到的电话待机声(完全没有谐波);反之如果谐波丰富,那么声音听起来就丰满。另一方面说,如果谐波与基频、谐波与谐波之间关系协和,声音听起来就更有音乐感;而如果谐波之间关系不谐和,那么声音听起来就没有谐和感。这里面的"谐和"是指由频率所决定音程的谐和关系。这是指乐音而言,如果谐波不是特定的几个频率而是占满某两个频率之间的空间,那么这个声音就没有音高可言,也就是噪音。最典型的例子就是白噪声,其他音乐中常用的噪音如打击乐器等,也大多属于这种情况。
在物理上,我们把复合在一起的频率分开来分析,就可以大致分析出某个乐器的音色情况。风琴管在轻吹得情况下,谐波数很少,并且谐波的能量都很弱,因此风琴管听起来音色就比较纯而很单调;长笛的高次谐波能量都不强,而谐和的谐波成分较强,听起来圆润、温暖;短笛的高次谐波就比较突出,因此声音尖锐刺耳。一些民族拨弦乐器如三弦,琴弦长而共鸣箱小,因此谐波数量虽然很多,但都很弱,听起来声音比较单薄;而吉他由于使用了大的共鸣箱,谐波成
分得到加强,因此声音丰满有力。事实上,由于吉他声音谐波丰富而厚重的特点,在采样技术出现以前,要靠人工合成器来得到逼真的吉他声音是一件非常困难的事情。
乐器声音的频率范围不是由其音域所对应的基频范围决定的,而是由其谐波范围决定的。例如钢琴的最高音c5频率在4kHz多一点,但是如果因为这个就把5kHz以上的频率都切掉,那钢琴一定会闷死,这是因为钢琴的谐波最高可以延伸到8kHz以上,基频决定了音高,而音色绝大部分取决于谐波成分。
借助电声转换的技术以及数模转换技术,我们可以用各种电表来分析声音,让声音真正"看得见"。它们能够提供视觉的参考,使我们更容易把握声音。不过要注意的是这里面同样有"眼见为虚,耳听为实"的原则,因为声音的一些参数还无法被量化,因此也就不能完全靠刻度和指针表示出声音的全貌。
电平表用来指示声音的强弱。常用的电平表有两种,VU表和PPM表。前者是一种平均值电平表,而后者显示瞬间电平。由于机械装置的运动总会受限制,因此模拟的VU表和PPM表只能称为"准平均值"和"准峰值"表。
在数字时代,由于数字计算不存在机械电表的缺点,因此电平指示变得更为精确,成为真正的"峰值表"(Peak)和"平均值表"(RMS)。峰值表类似PPM表,用来显示声音的瞬间电平,这样我们可以检查音频是否存在瞬间的过载;但瞬间电平并不能反映声音在听觉上的响度,我们还需要知道平均电平,这样才知道声音听上去有多响,平均值表(类似于VU表)正是为这个目的而生。我们在讨论声音的响度的时候,依据的正是平均值表。
上一节说了,声音是由振动产生的,并且讲了一些关于振动的时间(起振、稳态、衰减)的问题。可是,显然这样距离度量声音远远不够,否则,一个12寸的镲片和钢琴听起来应该差不多才对。我们需要一种能描述或者界定声音的方法,这样当你想让远方的朋友了解你新买的钢琴声音的时候,只要靠语言和参数描述就行了,而不必把你的钢琴寄过去给人家弹。
通常来说,我们用音长、音高、音强、音色四个参数来描述一个乐音,从物理的角度说,他们分别对应着声音的时程(时间长度)、频率、声压级(或声强级)和频谱结构。客观的说,这种对应并不是严格的一一对应关系,而只是主要的决定因素而已。换句话说,音高并不是完全由频率来决定,频谱结构也要比音色更复杂一些。这种更深入的讨论我们以后可能会提到,至于更严肃的学术问题,还是留给声学物理学家好了,我们先讨论音频工作能立刻用上的事情吧。
事实上,相比起"光"这种电磁波来说,由于声音是低速、长波长的机械波,因此极容易受到周围环境的影响,并且很容易发生衍射等波现象。用一块木板可以挡住光,而在后面留下阴影;可是用同样的一块木板根本无法挡住声音。用双手捂住眼睛,就什么也看不见了;可用双手堵住耳朵,一样还能听见声音,只不过是弱了一点而已。
声音的这种特性使得要完全驾驭它非常困难。以至于现有的量化参数并不足以完整的描述声音或者音频设备。比如喇叭单元或者麦克风振膜的瞬态响应,目前只能以"快"和"慢"来形容,而没有将其数值化的方法。因此搞音频工作,或者选择音频设备,切记"眼见为虚,耳听为实",两个参数一样的音箱也许声音大大不同,从频谱仪上看差不多的两段音频也可能相差甚远。好在目前依靠参数加主观描述的方法还是能够将一个声音的大部分特征表现出来的,我们在看音频设备的评测文章的时候,如果能将技术参数和作者主观性的描述结合起来分析,也可以对设备有一个大致准确的印象。
声音的时间问题我们在上一节中已经有所了解了,在此不多赘述。声音的强度用dB(分贝)来表示,我不打算抄太多教科书上的文字,因此也不在这里重复"分贝"的基础概念了。不过我见到偶尔会有初学者把物理世界的"分贝"和电平表上的"dB"搞混。当我们提到诸如"办公环境噪声60dB"或者"监听音量85dB"的时候,指的是声音的物理声压;
而在调音台和音频工作站中的电平表则将设备能容纳的最高电平设定为0dB,以此为标准,设立的电平指示当然是0以下的-xxdB了,很多设备为了保证超过0dB也不会立刻过载失真,往往会在0dB以上预留一些动态余量(headroom),这样在电平表上的标示就成为+x dB。动态余量是为了确保音频设备声音不失真的"安全措施",因此在调节电平的时候还是应该把电平定在接近而不超过0dB的位置,不要把headroom用光。

一个电平表的例子。可以看到中间的两根色柱指示峰值电平(PEAK),而两边的两根细的色柱则表示平均电平(RMS)。在电平表的下部有数值显示,这是绝大多数软件电平表的显示方式。
乐音的音高主要由频率决定。人耳的可听范围为20Hz-20kHz,这是个什么概念呢?与光比较,可见光的波长范围大约是380nm~760nm(纳米),相差不过2倍左右,而听觉范围上下限相差达1000倍,可以想象这个宽度了吧。以440Hz为标准A音,那么钢琴的最低键A2频率在大约27.5Hz左右,最高键C5频率为4186Hz。这里是指基频的频率,钢琴的谐波频率可达8kHz以上。由于人耳的实际听觉特性,大部分的乐器在50Hz以下和16kHz以上都没什么作为,反倒是本底噪声在这两个区域内比较集中,因此在混音时要注意使用高通和低通效果器把不用的频段切掉。本底噪声虽然在混音中并不容易听见,但是它们会吃掉动态范围,使混音变浑浊。
在十二平均律中,一个倍频程被平均分成12个相等的音程,每一个音程称为"半音"。换句话说,两个八度关系的音,他们的频率刚好相差一倍。这也是"十二平均律"的由来:12个音程,平均分割。然而在现实的工作中觉得以半音为单位不够精确,因此有了"音分"的概念。
将每个半音在平均分成100份,每一份为一个音分。有了十二平均律的音高关系,就可以计算出各音高的频率。比如标准A音为440Hz,那么高八度的A音频率为880Hz,将这两个频率之差除以12即为该八度之间每半音的频率差。
绝大部分自然产生的声音都不是单一的频率。拿起电话听到"嘟——"的待机声,这是人工合成的单一频率的声音。不怎么好听是吧?想象一下如果我们的音乐全部由这种声音组成,那该有多么乏味。好在实际的情况并不是这样,现实中绝大部分能震动发声的东西都不会发出单一频率的正弦波声音,而是会发出由多种频率成分复合在一起的复合声音。一般来说,乐音的音高是由其频率成分中最低的频率决定的,我们称之为"基频",其余频率称为"谐波"或者"谐频"。
频谱结构指的也就是谐波的成分,以及基频与谐频、谐频与谐频之间的关系。如果一个声音的谐波很少而且强度也很小,那么声音听起来就很纯很单调,例如风琴管或音叉,以及前面提到的电话待机声(完全没有谐波);反之如果谐波丰富,那么声音听起来就丰满。另一方面说,如果谐波与基频、谐波与谐波之间关系协和,声音听起来就更有音乐感;而如果谐波之间关系不谐和,那么声音听起来就没有谐和感。这里面的"谐和"是指由频率所决定音程的谐和关系。这是指乐音而言,如果谐波不是特定的几个频率而是占满某两个频率之间的空间,那么这个声音就没有音高可言,也就是噪音。最典型的例子就是白噪声,其他音乐中常用的噪音如打击乐器等,也大多属于这种情况。
在物理上,我们把复合在一起的频率分开来分析,就可以大致分析出某个乐器的音色情况。风琴管在轻吹得情况下,谐波数很少,并且谐波的能量都很弱,因此风琴管听起来音色就比较纯而很单调;长笛的高次谐波能量都不强,而谐和的谐波成分较强,听起来圆润、温暖;短笛的高次谐波就比较突出,因此声音尖锐刺耳。一些民族拨弦乐器如三弦,琴弦长而共鸣箱小,因此谐波数量虽然很多,但都很弱,听起来声音比较单薄;而吉他由于使用了大的共鸣箱,谐波成
分得到加强,因此声音丰满有力。事实上,由于吉他声音谐波丰富而厚重的特点,在采样技术出现以前,要靠人工合成器来得到逼真的吉他声音是一件非常困难的事情。
乐器声音的频率范围不是由其音域所对应的基频范围决定的,而是由其谐波范围决定的。例如钢琴的最高音c5频率在4kHz多一点,但是如果因为这个就把5kHz以上的频率都切掉,那钢琴一定会闷死,这是因为钢琴的谐波最高可以延伸到8kHz以上,基频决定了音高,而音色绝大部分取决于谐波成分。
借助电声转换的技术以及数模转换技术,我们可以用各种电表来分析声音,让声音真正"看得见"。它们能够提供视觉的参考,使我们更容易把握声音。不过要注意的是这里面同样有"眼见为虚,耳听为实"的原则,因为声音的一些参数还无法被量化,因此也就不能完全靠刻度和指针表示出声音的全貌。
电平表用来指示声音的强弱。常用的电平表有两种,VU表和PPM表。前者是一种平均值电平表,而后者显示瞬间电平。由于机械装置的运动总会受限制,因此模拟的VU表和PPM表只能称为"准平均值"和"准峰值"表。
在数字时代,由于数字计算不存在机械电表的缺点,因此电平指示变得更为精确,成为真正的"峰值表"(Peak)和"平均值表"(RMS)。峰值表类似PPM表,用来显示声音的瞬间电平,这样我们可以检查音频是否存在瞬间的过载;但瞬间电平并不能反映声音在听觉上的响度,我们还需要知道平均电平,这样才知道声音听上去有多响,平均值表(类似于VU表)正是为这个目的而生。我们在讨论声音的响度的时候,依据的正是平均值表。