数字音频的花式名词

今天我尝试着用简单的语言来解释一下这些常见的, 但又经常令人糊涂的数字音频名词.

在音频领域, 很有多名词属于那种, 我们一会儿懂了, 一会儿又模糊了概念的. 比如我们经常弄混淆Headroom, Dynamic Range, Ceiling, Phase等等.

今天我尝试着用简单的语言来解释一下这些常见的, 但又经常令人糊涂的数字音频名词.

0dBFS

首先, 我们要了解数字音频里的计量方法. 我们知道, 在数字世界里, 一切都是有极限的. 哪怕是我们每天都会使用的二维码, 即使它可以不断的生成, 但最终还是会被用完. 数字音频也一样, 不同于模拟音频或现实中的声音, 数字音频会受到位数的制约, 因此无法传输无限大的信号, 因此, 科学家们将数字音频中的音量做了限制, 由于数字音频做不到计量无限大的信号, 那么我们就把最大的信号固定为0dBFS, 这样, 只用计算数字音频能接收到的最弱的信号, 并用负值来标记, 直到计算到0dBFS为止.

一旦超过0dBFS, 数字音频就停止计算(或者说, 超出了计算能力范围), 音频信号就会被削波, 也称为Clipping. 这时所有超过0dBFS的信号就会变成数字噪音. 因此, 这个0dBFS, 也就意味着它是数字音频的音量天花板.

这也是为什么我们看到数字音频里的计量都是负数的.

Dynamic Range 动态范围

接着, 我们也知道音频信号是有强弱的, 这种强弱之间的对比值, 我们一般称之为动态范围Dynamic Range. 比如最强音达到了-2dBFS, 最弱音仅为-25dBFS, 那么这段音频信号的强弱差值, 也就是动态范围, 就是23dB. 不过动态范围一词会出现在多个领域, 除了数字音频信号强弱差, 还有话筒, 音箱, 音频接口等一系列物理硬件其可以承载的信号, 从最纯净无声到最响且不失真的范围值.

dBFS和dB

你肯定注意到了, 一会儿dBFS, 一会儿又dB是怎么个情况? dBFS是专属于数字音频的计量方式, 这是因为, 数字音频里我们只能看到显示的响度, 但它并不代表真正进入现实世界后的响度, 因为最终的真实响度还得由你的回放系统和音量旋钮来决定(甚至你的喇叭体积), 因此数字音频里, 要用dBFS来表示, 当前这个虚拟的数字信号, 在数字音频的计量中是个什么响度. 但计算响度差, 我们则可以使用真正的dB作为单位, 因为在数字音频和真实世界中, 这个响度的差值, 也就是dB的值是一样的. 比如前面我们说的最强音为-2dBFS, 最弱音为-25dBFS, 它们的响度差为23dB. 当你将回放音箱打开, 无论音量旋钮扭到哪儿, 这两个响度之间的动态范围都仍然是23dB. 你就是用防空警报来播放这段音频, 它的动态范围也同样是23dB(只不过防空警报如果离得很远, 它会利用空气中的反射与混响增大这种差值, 但这不在我们的考虑范围内)这也可以看出, 数字音频与真实世界的响度计量均值是一样的, 只不过, 计量目的不同. 同样的, 即使在数字音频世界中, 我们工作中经常使用的压缩器等插件, 上面的Gain, 也都是用标准的dB, 而不是dBFS来标记了. dBFS表示刻度, dB表示差值.

Peak 峰值

而这个最强音, 和最弱音, 我们也称之为波峰Peak和波谷Volley, 而最容易触及到数字音频天花板的, 就是音频的波峰. 音频的波峰一旦触及了天花板, 就面临着随着可能超出0dBFS的风险, 一旦超出0dBFS, 这超出的瞬间, 和超出的部分就会变成数字噪音, 这虽然不会对任何设备造成什么破坏, 但破坏了音质, 和听感.

因此, 我们需要在数字系统中控制音频信号的最大音量, 也就是波峰, 不会超过0dB. 这也是为什么我们会使用各种各样的压缩器和限制器的原因, 就是为了将波峰尽可能的压低, 不让它登顶成功.

同时, 我们也会在一个电平表上, 实时观察当前音频信号的峰值情况(因为我们只会担心最大音量超过数字接受范围而导致削波, 所以我们并不会去观察谷值), 这也是为什么电平表上有一个叫Peak值, 同时上方会有一个显示数值的地方, 将频繁的刷新Peak值, 以提示你刚才和当前的最高峰值是多少. 如果一旦超过了0dBFS, 这个电平表还会在顶部亮起红灯, 表示刚才出现了削波. 这个红灯甚至必须你点击才会熄灭, 说明了人们对0dBFS有多么恐惧.

有时候, 我们所使用的数字音频软件可能还需要其他插件的辅助, 才能帮我们判断音频信号的峰值会不会超过0dB. 这是因为, 由于数字音频还存在采样间隔的问题, 可能无法侦测到躲在两个采样样本之间的信号. 而这个家伙, 搞不好就会借此机会顺利登顶, 然后你的电平表就又红了.

Inter Sample Peaks 区间样本峰值

数字世界就是这样, 有很多的限制. 如果你能理解数字照片不断放大后, 都会是一些充满单色的马赛克, 那么你就能理解数字音频的采样率了. 采样率就是数字系统与音频接口中以一个什么样的频次来交换数据. 比如我们常用的数字音频采样率44.1KHz, 就是我们的数字音频软件, 与音频接口中的数字芯片, 进行每秒441000个Hz的采样. 这已经很惊人了, 但离捕捉这个现实世界的一呼一吸, 还远得很.

你的举手投足之间, 可能一万个细菌就天人永别了. 采样也是一样, 即使是441000个采样点, 这每个点中间, 就会出现指缝中溜走的信号, 这种信号, 称之为Inter-Sample区间样本. 而很多情况下, 这些夹缝中的信号, 如果其上升周期恰好在两个采样点之间, 那么很不幸, 这就是亮起红灯的罪魁祸首. 这种夹缝中的信号峰值, 就叫做Inter Sample Peaks(ISP)区间样本峰值.

True Peak 真实峰值

那, 难道我们就无法完全征服这些互联网运营商, 不, 区间样本峰值了吗? 还是可以的. 现在音频行业开始使用更进步更科学的监测方式, True Peak, 真实峰值, 来监测这些狡猾的家伙. True Peak简称TP, 会使用两种方式来准确的捕捉峰值: 一是超采样Oversampling技术, 用两个不同步的数据采样周期, 来交错采样, 填补采样点之间的空隙, 捕捉漏网之鱼; 二是预测方式, 通过前面若干个采样点的信号积累, 来快速预判是否可能存在样本峰值上升的趋势, 然后给出普通Peak电平无法判断的预估数值.

好, 我相信到这里, 你应该基本了解了数字音频信号的计量方式, 监测峰值的意义和不同类型的监测方法. 那你肯定也会想到, 为了避免峰值, 我们只需要降低音量就可以了.

Loudness 响度

这么说倒是没错. 但你无法忽视一个现实的问题, 那就是响度Loudness. 响度是一个从人类听觉出发, 综合计量音量的标准, 它的单位和dB类似, 写做LU, 是Loudness Unit的缩写, 但在记录具体数值时, 也和dB一样, 要添加上FS(Full Scale全尺寸), 因此, 我们记录一个作品的响度, 就会用诸如”-12LUFS”这样的标记, 但比较两个音频的响度时, 我们又会用”3LU”这样的单位. 不过, 好消息是, LU的单位值, 和dB一样大. 换句话说, 一个作品的响度为”-10LUFS”, 另一个为”-17LUFS”, 你可以直接判断它们的响度差值在”7个LU”或”7个dB”.

响度逐渐成为了现在音频产品听觉标准的一个主要指标, 只要你的音乐要在不同的平台中播放, 你就必须依照该平台的响度协议, 对你的音乐作品或音频作品, 进行响度控制. 由于人们对越大声的声音注意力会越高, 有些图谋不轨的人就不断在音乐的响度上打主意, 企图让它们更响. 但这样就违背了音乐或音频作品之间的公平. 也因此, 各个平台会制定各自的响度标准, 如果谁的声音太响了, 就给他个Penalty惩罚, 将他的作品的整体音量直接拉低. 但遗憾的是, 从来没有平台会为不够响的作品, 帮他们提高响度.

由此可见, 你同样需要在符合规则的情况下, 尽可能的让作品拥有合适的响度. 不能太响, 但也不能太弱.

你可能会说, 这可能吗? 既要音频信号的峰值不超过0dB, 又要让它达到一定的响度? 这不是互相矛盾吗? 实际上并不矛盾, 因为, 峰值电平, 和响度, 是不同世界的计量方式. 峰值是由设备对信号的强度而测得的, 是为了保证数字音频在内部传输中不出现失真, 但它也会计量那些对人类听觉无效的信号, 并不能准确反应人们对当前声音的听觉感受. 而响度, 则是基于人类的听觉感知, 重新研制的一套算法, 响度测量不考虑峰值, 只考虑人类听觉感知中可以接受的频率和强度, 再依此推算.

Equal Loudness 等响

上面这张图是Equal Loudness, 等响曲线, 就是人类对于不同声压下, 声音频率的敏感度对照表. 这张表的黄色曲线为2003年的分析结果, 蓝色曲线为最早提出等响曲线理论的Fletcher Munson于1933年制作的分析结果(很可怕, 30年代人们就已经开始分析响度了).

感知响度的单位是Phon. 如果你仔细看图, 会发现, 这些曲线中, 人耳只对1000Hz左右的频率的敏感程度, 和整个声音的声压大小是基本相符的, 其他频率上则全是变量. 于是, 科学家们将1000Hz时的声压, 换成人耳听觉感知单位Phon, 用来进入感知响度的世界. 如果我们只观察80 Phon的感知响度曲线, 就会知道, 在这条曲线中, 人们要听到100Hz的感知响度为80 Phon的声音, 那么这个100Hz声音的实际声压将达到90dBSPL左右, 而我们想听到10KHz的80 Phon的响度, 那么这个10KHz声音的实际的声压值也必须达到90dBSPL出头. 如果我们想听到11Hz(图中10Hz后面的第一根竖线)的响度为80 Phon的声音, 那么这个11Hz的声音需要多大的声压级呢? 没错, 接近120dBSPL.

反过来看看高频, 结果恰恰相反. 我们想要一个感知响度为20 Phon的3000Hz的频率, 那么这个频率的dBSPL只需要在12~13左右就足够了, 而60 Phon左右的3000Hz频率, 需要达到大约56dBSPL的声压.

看, 人耳对3000Hz左右的频率是最为敏感的. 这种情况在声压不断增大的情况, 才逐步平稳. 而对低频的迟钝, 几乎是等量的, 没有任何缓和迹象, 永远需要更响更大声的低频, 我们才能感知到多那么一点点而已.

在数字音频里也同样如此, 一个音量非常大的低频, 即使已经冲破了我们的峰值电平表, 但在我们的听觉感知中, 它就像不存在或仅仅是非常小的震动感而已. 这就说明了, 我们即使将声音音量推到极限0dBFS, 也不意味着我们的听众能清晰的听到我们的声音. 那么, 巧妙的合理的分配频率, 就可以在整体音量提升不大的情况下, 大幅的提升感知响度.

峰值和响度, 有相似之处(即普遍情况下, 峰值大, 响度也大), 也有巨大差异(峰值不参考频率, 而响度严重依赖频率). 它俩就是数字逻辑与人类感官的碰撞(比如数字世界里音量越大峰值越大, 但感官世界里频率越高音量越大). 我们需要利用各种方式, 让音频在峰值得到控制的情况下, 大幅的提升响度. 那怎么观测响度呢?

LUFS

前面我们知道了, 感知响度是可以测量的. 我们也知道了等响曲线, 感知响度的单位Phon和人类最敏感的频率3000Hz, 但这些单位还无法直接应用到数字领域, 因为音乐或音频作品的响度, 是变量的持续的, 是需要统计的. 因此, 一个新的单位就诞生了, LUFS, Loudness Unit Full Scale, 响度单位全量程.

这几年来, 音乐制作人都基本更换了音频统计的方式, 会从两个区域观测音频最后的听觉指标, 一个是True Peak, 用来确保音乐的高保真, 另一个, 则是响度LUFS, 用来确保符合创作者意图或符合发布平台的标准.

响度的测量和常规的音量测量不同, 音量测量是瞬态的, 什么时候音量大什么时候音量小, 你做出相对应的控制即可. 而响度是一个需要全程回放并综合所有短期数据和长期数据, 最后给出结论的值. 所以你可不能只看到一个响度数值就确定自己作品的响度是多少, 一定要等到整个作品回放完毕.

响度通常有三个主要数值, Short Term短期响度, Integrated综合响度, 和Momentary瞬时响度. 不过我们并不需要完全掌握这些参数, 对大部分音频音乐作品来说, 我们最需要关注的就是Integrated Loudness综合响度. 综合响度不同于短期和瞬时两个即停即走的参数, 而必须认真的测量整个作品的全程, 才能得出最准确的综合响度数值, 而这个数值, 也就是最后的-XX LUFS, 能准确的帮你判断, 是否符合数字音频平台的标准. 当然, 当你提交作品到平台后, 平台也会通过他们自己的测量方式快速判断出你作品的响度, 然后决定直接上架, 还是给你一个惩罚(响度过大的作品就直接降响应的dB数).

大部分平台的响度标准都在-14dB. 另外, 响度测量只能说是现阶段最符合大部分人类感知的方法(毕竟由于人类感知听觉是通过基数样本采集的), 并不一定适用于所有人群.

现在你可能会觉得, 想要合理的混音, 又要峰值不超过0dBFS, 又要尽可能的提高LUFS, 真不是件容易的事. 是的, 作为这个行业的从业者, 我到现在还经常犯各种低级错误, 导致音乐作品无法在峰值与响度中取得最好的平衡. 但我们只要不断在混音中尝试多种方法, 是可以不断接近这个目标的.

EQ 均衡

我们需要在混音中, 去除那些会被峰值计算, 但对人耳听觉又无效的信号, 来进一步保护峰值. 在频率这个范畴内, 也存在和前面说的ISP区间样本峰值一样的隐身怪. 我们都知道人耳的听觉范围在20Hz到20KHz之间. 超出这个范围的信号频率, 我们几乎听不到. 听不到倒也无所谓, 但问题是, 我们前面了解了Phon就明白, 很多听不到的频率, 恰恰可能音量超大, 这些家伙无形中就混在音频里浩浩荡荡冲了顶. 这些无效音频信号的叠加, 会增加音频总峰值, 造成音频本来还有响度空间可以提升, 结果一直处在峰值顶端或削波的情况.

我们需要对混音中的每个音轨, 控制它们的频率, 将不需要或听不到的频率, 爽快的切除. 这也就是在均衡(EQ)插件中最常看到的, 低切Low Cut和高切High Cut.

还记得前面那个等响曲线吗? 人们早已经知道利用这个等响曲线, 来创造符合人类听觉的, 制定好了曲线的优化频率.

一些辅助曲线软件, 能利用等响曲线, 结合音乐类型, 给出你最适合的音乐整体频率曲线. 可以看到, 由于我们对低频的缺乏敏感, 这条曲线的低频部分会建议我们提高响度, 而相反的, 高频部分会建议我们压低, 因为我们对高频敏感, 不需要太大的响度.

Compression 压缩

除此之外, 我们还要对一些吵闹的声音, 进行动态上的控制. 还记得前面说过的动态范围Dynamic Range吗? 我们需要利用压缩(Compressor)对一些音量失控的声部, 进行制约. 让它们的最强音不得超过多少dBFS. 这样我们就又攒下了一些Headroom.

Headroom 余量

Headroom? 衣帽间? 那是Dressing room. 指挥所? 那是headquarter… Headroom, 我们称它为余量, 也可以叫做头部空间. 它是当前音频的最高峰值, 到极限峰值0dBFS之间的这部分空间. 通常我们会给混音中的每个音轨留出3~6个dB以上的头部空间, 也就是峰值离0dBFS大约3~6个dB的音量差, 这样, 当所有轨道混合在一起播放时, 它们产生的音量总和, 还有一定机会在0dBFS以下. 这时候, 我们就可以在总输出轨道上, 通过添加一个限制器Limiter, 将Ceiling天花板, 设置在-0.3dBFS或-0.1dBFS左右, 就可以较为轻松的将整体音量控制在0dBFS之下了.

Ceiling 天花板

等等, 你可能又搞糊涂了, 不是说0dBFS才是数字音频的天花板么? 怎么Limiter上面又来一个天花板Ceiling? 没错, 数字音频的天花板确实是0dBFS, 但我也说过, 我们并不敢轻易的尝试让音频在天花板的极限处蹦跶, 这很不礼貌. 更主要的原因是, 数字音频极易出现传输或压缩中的失真, 包括前面说过的ISP等因素.

前面说过, ISP, 区间样本峰值, 这个ISP会在两个采样点中间, 不经意的溜出去, 从而引起削波Clipping. 我们即便能在数字音频软件里, 通过TP(真实峰值)来观察到, 甚至控制它在安全值内(0dBFS以下), 但我们无法控制最后合成为不同格式的音频时它的峰值. 比如, 当我们将一个峰值在0dBFS的作品输出为wav, 和mp3格式, 用来传递给不同的客户或平台, 这个wav的音频正常播放, 但这个mp3格式的音频, 就很可能因为降低品质而产生ISP从而产生削波. 这就是压缩音频除了音质降低外的另一个负面作用,

因此, 让音频直接在0dBFS附近打转, 无疑于悬崖边跳舞.

我们需要为0dBFS这个天花板, 下方再加一层天花板, 也就是吊顶, Ceiling. 当然我们也会直接称它为天花板. Ceiling是Limiter限制器中专有的功能, 就是控制音频的极限绝对值. 限制器其实就是个压缩器, 只是由于Ceiling的存在, 它才能被称为限制器. 当Ceiling设置为-6dBFS后, 这个限制器里的音频无论怎么蹦跶, 顶破头了也差天花板6个dB远.

这样一来, 即使你将这个音频输出成各个格式传递出去, 它即使出现了ISP, 也顶多出现-5.8dBFS的峰值电平, 离危险的0还远着呢. 当然, 我们不需要这么夸张, 综合各方面经验来说, 将Limiter的Ceiling天花板控制在-0.3dBFS, 基本上都能预防输出为压缩音频的ISP出现.

今天暂时就说到这里, 下回继续补充.

扩展文献:

响度 – 维基百科,自由的百科全书 (wikipedia.org)
「音量」「电平」「响度」,这几个概念有什么区别? – 知乎 (zhihu.com)
What Are LUFS? The Complete Guide (izotope.com)
What is the Fletcher Munson Curve? Using Equal Loudness Curves in Mixing and Mastering (izotope.com)
Industry Standard Of Setting Audio Levels | Sync Licensing SourceAudio
What are inter-sample peaks and true peaks? – Blog | Splice
Beyond the mp3: Exploring mp3s and lossy compression – Blog | Splice
Intersample Peaks – Why 2 dbTP headroom is better! (peak-studios.de)