梅尔刻度

维基百科,自由的百科全书
跳转至: 导航搜索
梅尔与赫兹的对应图
A440 关于这个音频文件Play. 440 Hz = 549.64 mels

梅尔刻度(英語:mel scale),是一種基于人耳对等距的音高(pitch)變化的感官判断而定的非線性頻率刻度。由Stanley Smith Stevens英语StevensJohn Volkman英语Volkman 和Newman于1937年命名。[1] 梅爾刻度與線性的頻率刻度赫茲(Hz)之間可以進行近似的數學換算。其参考點定義是將1000Hz,且高于人耳听阈值40分贝以上的聲音信號,定為1000mel。在頻率500Hz以上时,人耳每感覺到等量的音高變化,所需要的頻率變化隨頻率增加而愈來愈大。这样的结果是,在赫茲刻度500Hz往上的四个八度(一個八度即為兩倍的頻率),只对应梅尔刻度上的两个八度Mel的名字来源于单词melody,表示这个刻度是基於音高比较而創造的。

一个常用的将f赫兹转换为m梅尔的公式是:[2]

m = 2595 \log_{10}\left(1 + \frac{f}{700}\right)

历史和其他公式[编辑]

历史上,存在各种各样的转换公式.[3] 在O'Shaugnessy的书中的常用公式可以表示为不同的对数底:

m = 2595 \log_{10}\left(1 + \frac{f}{700}\right) = 1127 \log_e\left(1 + \frac{f}{700}\right) \

对应的逆向公式是:

f = 700(10^{m/2595} - 1) = 700(e^{m/1127} - 1) \

自从Steinberg于1937年出版的基于最小可覺差音高的刻度曲线和表格[4] 后,还有许多其他曲线,如Fletcher和Munson在1937年[5] ,Fletcher在1938年[6] ,Steven于1937年[1] 以及 Stevens 和 Volkmann于1940年[7] 用了各种实验方和分析途径。

在1949年,Koenig发表了一个基于独立的线性部分和对数部分的近似值,在1000Hz发生断裂。[8]

Gunnar Fant与1949年发表了当前流行的线性\对数公式,但是有1000Hz的角频率(corner frequency)。[9] Fant于1968年发表了该公式的另一种不基于对数的形式:[10][11]

m = \frac{1000}{\log(2)} \log \left(1 + \frac{f}{1000}\right) \

1976年,Makhoul and Cosell发表了现在流行的版本,在700Hz处出现角频率。[12] Ganchev等人指出:"700Hz的公式,相比于Fant等人的1000Hz的公式,能够在1000Hz以下更近似于Mel刻度,代价是超过1000Hz时误差增大了。"[13] 但是当频率超过7K hz时,700Hz的版本表现的更好.

这些公式的数据由Beranek于1949年制成表格,数据来源于Stevens和Volkman的曲线:[14]

Beranek 等制表(1949),数据来源于Stevens 和 Volkman(1940)
Hz 20 160 394 670 1000 1420 1900 2450 3120 4000 5100 6600 9000 14000
mel 0 250 500 750 1000 1250 1500 1750 2000 2250 2500 2750 3000 3250

具有625Hz截断频率的公式由Lindsay和Norman于1977年提出;[15] 该公示没有出现在该书1972年第一版中:

m = 2410 \log_{10}(1.6\times10^{-3} f + 1)

大多数的公式能够保证1000 mel对应1000Hz。截断频率(break frequency),如700Hz、1000Hz或625Hz,是这些公式中唯一的自由参数。一些非MEL听觉频率尺度(auditory-frequency-scale)公式使用了相同的形式,但截断频率低得多,不一定能保障映射1000mel到1000Hz,例如1990年Glasberg & Moore的ERB-rate刻度使用的是228.8Hz[16] ,1990年Greenwood 的 cochlear frequency–place map 使用 165.3 Hz.[17]

Umesh等人对其他形式的梅尔刻度进行了研究。根据从这些曲线上计算的数据,他们指出,传统的含有对数区域和线性区域的公式,以及其他形式的公式,都不符合Stevens和Volkman的曲线:[18]

Umesh 等制表(1999),数据来源于Stevens 和 Volkman(1940)
Hz 40 161 200 404 693 867 1000 2022 3000 3393 4109 5526 6500 7743 12000
mel 43 257 300 514 771 928 1000 1542 2000 2142 2314 2600 2771 2914 3228

参考文献[编辑]

  1. ^ 1.0 1.1 Stevens, Stanley Smith; Volkman; John; & Newman, Edwin B. A scale for the measurement of the psychological magnitude pitch. Journal of the Acoustical Society of America. 1937, 8 (3): 185–190. 
  2. ^ Douglas O'Shaughnessy. Speech communication: human and machine. Addison-Wesley. 1987: 150. ISBN 978-0-201-16520-3. 
  3. ^ W. Dixon Ward. Musical Perception. (编) Jerry V. Tobias. Foundations of Modern Auditory Theory. Academic Press. 1970: 412. "no one claims yet to have determined 'the' mel scale." 
  4. ^ John C. Steinberg. Positions of stimulation in the cochlea by pure tones. Journal of the Acoustical Society of America. 1937, 8 (3): 176–180. 
  5. ^ Harvey Fletcher and W. A. Munson. Relation Between Loudness and Masking. Journal of the Acoustical Society of America. 1937, 9: 1–10. 
  6. ^ Harvey Fletcher. Loudness, Masking and Their Relation to the Hearing Process and the Problem of Noise Measurement. Journal of the Acoustical Society of America. 1938, 9 (4): 275–293. 
  7. ^ Stevens, S., and Volkmann, J. The Relation of Pitch to Frequency: A Revised Scale. American Journal of Psychology. 1940, 53 (3): 329–353. 
  8. ^ W. Koenig. A new frequency scale for acoustic measurements. Bell Telephone Laboratory Record. 1949, 27: 299–301. 
  9. ^ Gunnar Fant (1949) "Analys av de svenska konsonantljuden : talets allmänna svängningsstruktur", LM Ericsson protokoll H/P 1064
  10. ^ Fant, Gunnar. (1968). Analysis and synthesis of speech processes. In B. Malmberg (Ed.), Manual of phonetics (pp. 173-177). Amsterdam: North-Holland.
  11. ^ Jonathan Harrington and Steve Cassidy. Techniques in speech acoustics. Springer. 1999: 18. ISBN 978-0-7923-5731-5. 
  12. ^ John Makhoul and Lynn Cosell, LPCW: An LPC vocoder with linear predictive spectral warping, ICASSP 1976 (IEEE), 1976, 1: 466–469 
  13. ^ T. Ganchev, N. Fakotakis, and G. Kokkinakis, Comparative evaluation of various MFCC implementations on the speaker verification task,, Proceedings of the SPECOM-2005, 2005: 191–194 
  14. ^ Beranek, Leo L. (1949). Acoustic measurements. New York: McGraw-Hill.
  15. ^ Lindsay, Peter H.; & Norman, Donald A. (1977). Human information processing: An introduction to psychology (2nd ed.). New York: Academic Press.
  16. ^ B.C.J. Moore and B.R. Glasberg, "Suggested formulae for calculating auditory-filter bandwidths and excitation patterns" Journal of the Acoustical Society of America 74: 750-753, 1983.
  17. ^ Greenwood, D. D. (1990). A cochlear frequency–position function for several species—29 years later. The Journal of the Acoustical Society of America, 87, 2592–2605.
  18. ^ Umesh, S. and Cohen, L. and Nelson, D., Fitting the mel scale, Proc. ICASSP 1999 (IEEE), 1999: 217–220, ISBN 0-7803-5041-3 

外部链接[编辑]

参见[编辑]