为什么两个半音一起弹奏不会产生拍频(beat)?

视频终于上传成功了!原来是格式的问题,视频中的音频必须是 44.1 kHz 采样、双声道格式才行。

从我马克到写完答案、上传视频的一天里,本问题下已经涌现了许多好答案,这才是知乎该有的样子!

一、预备知识

人的耳朵和大脑在处理声音信号时,根据信号中特定特征反复出现频率的高低,有两种明显不同的模式。当特征反复出现的频率较低时,人可以分辨出它每一次出现的时刻,把信号理解成节拍;但当它反复出现的频率很高时,打拍子就跟不上了,此时耳朵就发挥了作用,把这个信号理解成乐音。这里面低频和高频的分界线,在 20 Hz ~ 40 Hz 左右。

人的耳朵与大脑的上述特点,跟信号处理中的「短时傅里叶分析」非常相似。短时傅里叶分析,是把一段长信号截成许多,对每一帧进行傅里叶变换求得频谱,再把各帧的频谱并排起来得到整段长信号的语谱图。语谱图的横轴是时间,纵轴是频率,颜色表示能量的高低。短时傅里叶分析的一个重要参数是帧长(也叫窗长)。当信号中特定特征出现的频率较低,低于帧长的倒数时,它就会在有些帧中出现,在有些帧中不出现,于是在语谱图上形成沿横轴重复的图样。当特征出现的频率较高,比帧长的倒数还高出一截时,它就会在所有帧中都出现(甚至出现多次),于是这种特征的频谱就会在时间轴上铺展开来,在语谱图上形成沿纵轴重复的图样

利用短时傅里叶分析,可以把人的听觉感受转换成视觉来呈现,有助于理解。下面的视频,就播放了一系列频率不同的脉冲串,同时画出了波形和语谱图。脉冲串的频率由 1 Hz 开始,逐渐加倍,直到 512 Hz。信号的采样率是 16384 Hz,根据奈奎斯特采样定理,语谱图的频率上限就是 8192 Hz。做短时傅里叶分析时使用的窗长是 512 个采样点,即大约 31.3 毫秒,其倒数为 32 Hz,大约就是节拍和乐音的分界线。可以看到,当脉冲串的频率超过 32 Hz 后,语谱图上的纵纹就开始转变为横纹,同时你听到的东西也从节拍转变成乐音了。

看过上面的视频,你应该能体会到短时傅里叶分析的时域分辨率是有限的:当脉冲在时间轴上靠得太近的时候,它们在语谱图的时间轴上就分不清了,反倒会沿频率轴形成图样。其实,短时傅里叶分析的频域分辨率同样是有限的,这是因为「截取一帧」的操作相当于把信号与窗函数相乘,这会让频谱产生弥散。如果信号中有两个频率分量的频率太过接近,它们在语谱图的频率轴上也会分不清,而是沿时间轴形成图样,这就是下面要分析的「拍频」现象。

二、两个正弦信号的叠加

我们从最简单的情形开始:先假设两个乐音都是最简单的正弦波。设它们的频率分别为 f+\Delta ff - \Delta f 。为简单起见,设两个正弦波的幅度相等、初相均为 0。则两个正弦波之和可以表示为:

x(t) = \sin[2\pi (f+\Delta f) t] + \sin[2\pi (f-\Delta f) t] \qquad (1) \

根据和差化积公式,上式也可以写成:

x(t) = 2 \sin( 2\pi \cdot f \cdot t) \cos (2\pi \cdot \Delta f \cdot t) \qquad (2) \

两个式子是等价的,但根据 \Delta f 的大小不同,其中有一个式子会比另一个式子更直观地描述语谱图及人的听觉。

\Delta f 很小时,(1) 式中两个频率分量的频率就很接近,于是在听觉上就都分不开了。而根据 (2) 式,信号可以看成是一个频率为 f 的振动 \sin(2\pi \cdot f \cdot t) ,但是它的振幅按 |2 \cos (2 \pi \cdot \Delta f \cdot t)| 在变化。这个振幅的变化频率 2\Delta f 很低,于是就能被听成节拍,这就是「拍频」现象。此时 (2) 式能更直观地描述听觉。

\Delta f 较大时,若按 (2) 式理解,则振幅的变化频率 2\Delta f 较高,无法被听成节拍,故 (2) 式并不直观。相反,(1) 式中两个频率分量的频率相差较大,可以被分开,于是人就会把信号听成双音。此时 (1) 式能更直观地描述听觉。

下面的视频,展示了 f = 440\text{ Hz}\Delta f 由 1 Hz 逐步倍增至 256 Hz 时,两个正弦波叠加的波形和语谱图。可以听到,当 \Delta f 达到 32 Hz 时,听觉上虽然还略有抖动,但其实已经很像双音了;语谱图上两个频率分量也快要分开了,沿横轴变化的图样也基本消失。

如果题主用 440 Hz 和 493.8 Hz 两个正弦波叠加,就相当于 f = 466.9\text{ Hz}\Delta f = 26.9\text{ Hz} 。这跟上面视频中 \Delta f = 32\text{ Hz} 的情形比较接近,处于拍频和双音的临界,如果仔细听,还是能听出一点儿拍频的。

上面的分析中为简单起见,设定了两个正弦波的幅度相等、初相均为 0。实际上,初相对问题的分析没有影响;幅度不相等时,振幅没有彻底减小为 0 的瞬间,因此拍频现象会弱一些,但没有本质不同。

三、两个非简谐信号的叠加

大部分乐器产生的声音都不是单纯的正弦波,而是具有许多频率分量的非简谐波。在这一节中,我用方波来举例。同样设两个方波的频率为 f+\Delta ff - \Delta f ,幅度相等,初相均为 0。两个方波的叠加可以表示为:

x(t) = \text{sign}\{\sin[2\pi (f+\Delta f) t]\} + \text{sign}\{\sin[2\pi (f-\Delta f) t]\} \qquad (3) \

其中 sign(正数) = 1,sign(负数) = -1,sign(0) = 0。

方波的叠加就没有和差化积公式了,所以我就不多做计算,直接上视频了。下面的视频展示了 f = 440\text{ Hz}\Delta f 由 1 Hz 逐步倍增至 256 Hz 时,两个方波叠加的波形和语谱图。

可以听到,哪怕 \Delta f 只有 4 Hz 的时候,拍频现象就已经不太明显了。从语谱图上可以看出,虽然方波的基波和三次谐波(方波没有偶数次谐波)形成了沿横轴变化的图样,但更高次的谐波都已经能在频率轴上分开了。这些高次谐波在一定程度上淹没了基波和三次谐波的拍频现象。

题主在钢琴上弹奏 440 Hz 与 493.8 Hz 这两个音,听不出拍频,应该就是由于高次谐波的淹没作用。

有心的读者也许注意到了,当 \Delta f 较高时,有些比较高频的分量会形成拍频。比如当 \Delta f = 32\text{ Hz} 时,在略高于 6 kHz 处有谐波形成了拍频。这个拍频,其实是 (440 – 32) Hz 的 15 次谐波 6120 Hz 与 (440 + 32) Hz 的 13 次谐波 6136 Hz 叠加形成的。不过,由于方波 n 次谐波的幅度只有基波的 1/n,上面这个拍频的能量极弱,是听不出来的。

四、三个正弦信号的叠加

设三个正弦信号的频率分别为 ff + \Delta ff - \Delta f ,幅度相等,初相均为 0。它们叠加后的效果如下面的视频所示。三个正弦信号叠加产生的拍频现象比较复杂,其包络呈现大包小包相间的模式。由于小包的阻隔,拍频转化为三音的临界频率比两个正弦信号叠加时高了一点儿:当 \Delta f = 32\text{ Hz} 时,听觉感受还是以拍频为主;但当 \Delta f 达到 64 Hz 时,听觉感受就以三音为主了。

三个正弦信号叠加时,信号之间的相位关系也会有影响。比如,若把频率为 f 的那个信号由正弦改为余弦,则叠加效果如下所示。此时并没有大小包的交替,但音高呈现出了渐高、渐低交替的模式(可以叫「抖音」?);这种模式在 \Delta f = 16\text{ Hz} 时尤为明显。当 \Delta f 达到 32 Hz 时,抖音开始转变为三音,到 64 Hz 时听起来就完全是三音了。

五、总结

两个正弦波叠加时,如果频率差在一定阈值以内(粗略地说,差 50 Hz 以内吧),就能听出拍频现象。

如果是两个非简谐波叠加,那么基波形成的拍频会受到不形成拍频的高次谐波的淹没,上述阈值会降低不少。

如果是多个正弦波叠加,那么根据它们之间相位关系的不同,上述阈值可能会略有调整,也可能形成「抖音」等比拍频更复杂的现象。

来源:知乎 www.zhihu.com

作者:王赟 Maigo

【知乎日报】千万用户的选择,做朋友圈里的新鲜事分享大牛。
点击下载

此问题还有 12 个回答,查看全部。
延伸阅读:
为什么两个半音一起弹奏不会产生拍频(beat)?
为什么说话音高是由决定乐音的频率构成,但听起来却和音乐不同?