心理聲學基礎


本文首發於:行者AI

聲音雖然客觀存在,但是人的主觀聽覺和客觀實際存在差異化。心理聲學研究的就是聲音的主觀感覺和物理量之間的關系,因為人耳聽覺對聲音的主觀響應是評價音質好壞的唯一標准。對於復雜的聲音,從主觀可以用響度、音高和音色來描述。客觀上,響度和音高與聲波的振幅(幅度)有關,音色和頻譜及包絡有關,而音高與頻譜的頻率有關。

1. 聲音強度

聲波的幅度可以用聲壓或者聲強來表示,而實際中常常使用級來表示,分貝則是常用的級的單位。采用級的主要原因有:

a. 聲音震動的能量范圍比較大,最大與最小值可以相差10多個數量級,表示起來比較麻煩且易出錯。使用對數表示則要方便許多。

b. 人耳聽覺增長規律非線性,主觀上的響度感覺並不正比於強度而是接近於強度的對數成正比。

分貝(decibel)是量度兩個相同單位之數量比例的單位,主要用於度量聲音強度,常用dB表示。“分”(deci-)指十分之一,個位是“貝”(bel),但一般只采用分貝。

2. 聲功率級、聲強級和聲壓級

  • 聲功率級

聲功率級是聲功率與基准聲功率之比的以10為底的對數乘以10,以分貝計。基准聲功率必須指明。其數字表示式為SWL=10lg(W/Wo),常用基准聲功率Wo為10-12W。

  • 聲強級

聲強級指某一處的聲強級,是指該處的聲強與參考聲強的比值常用對數的值再乘以10,度量它的單位為分貝,符號為dB。數學表達式為SIL=10log(I/I(ref)),參考聲強I(ref)是10-12瓦/米2。

  • 聲壓級

聲壓級指在空氣中參考聲壓p(ref)一般取為2*10E-5帕,這個數值是正常人耳對1千赫聲音剛剛能覺察其存在的聲壓值,也就是1千赫聲音的可聽閾聲壓。數學表達式為:SPL=20lg(p/p(ref))

生活中所到的正常交談約60dB噪音在80dB左右以上而安全極限為140dB,這里使用的就是聲壓級。

  • librosa.power_to_db

librosa中計算分貝,直接使用兩個相同的物理量(例如A1和A0)之比取以10為底的對數並乘以10(也可以是20)。

@cache(level=30)
def power_to_db(S, ref=1.0, amin=1e-10, top_db=80.0):
    S = np.asarray(S)
    if amin <= 0:
        raise ParameterError('amin must be strictly positive')

    if np.issubdtype(S.dtype, np.complexfloating):
        warnings.warn('power_to_db was called on complex input so phase '
                      'information will be discarded. To suppress this warning, '
                      'call power_to_db(magphase(D, power=2)[0]) instead.')
        magnitude = np.abs(S)
    else:
        magnitude = S

    if six.callable(ref):
        # User supplied a function to calculate reference power
        ref_value = ref(magnitude)
    else:
        ref_value = np.abs(ref)

    log_spec = 10.0 * np.log10(np.maximum(amin, magnitude))
    log_spec -= 10.0 * np.log10(np.maximum(amin, ref_value))

    if top_db is not None:
        if top_db < 0:
            raise ParameterError('top_db must be non-negative')
        log_spec = np.maximum(log_spec, log_spec.max() - top_db)

    return log_spec

3. 聽覺的頻率響應、響度

級表明人耳對信號的強度呈非線性增長的特點,然而2個相同聲級的聲音人耳聽起來也不一定相同,這是因為人耳的聽覺頻響是不平直的。

  • 等響曲線

從等響曲線圖中我們發現,人耳對高頻的聲音更加敏感,同樣聲壓級下的高頻聲音響度級比低頻的高。一般女性發聲的高頻成分較多,而男性發聲的低頻成分相對較多,這就是在同樣力氣講話時(聲壓級相同),女性的聲音聽上去更加響的原因。

  • 聽覺頻響

聲壓級越高,人的聽覺頻響越平直,隨着聲壓級降低人的聽覺頻響月不平直,尤其在中低頻下跌幅度越大。而無論聲壓級多大,低於20Hz和高於20kHz的聲音一般聽不到而對3-5kHz頻率段最敏感。

  • 響度

響度級和等響曲線描述了人耳的聽覺頻響,但要描述人耳對聲音大小強弱的主觀判斷需要引入響度。響度是一個無量綱單位。

4. 音高音階

人耳對聲音高低的感覺主要與頻率有關,人耳的音高感覺大致與聲音的基頻對數呈線性關系,12平均律音階就是在頻率的對數上取等分得到的。

  • 倍程

倍頻程是頻程的單位,符號為oct,等於2個音的頻率比取2位底的對數,在音樂中稱之為八度。n=log2(f2/f1)

  • 12平均律

十二平均律,亦稱“十二等程律”,世界上通用的一組音(八度)分成十二個半音音程的律制,各相鄰兩律之間的振動數之比完全相等。十二平均律是指八度的音程(一倍頻程)按頻率比例地分成十二等份,每一等份稱為一個半音小二度。

一個大二度則是兩等份。 將一個八度分成12等份有着驚人的一些湊巧。它的純五度音程的兩個音的頻率比(即2 的7/12 次方)與1.5 非常接近,人耳基 本上聽不出“五度相生律”和“十二平均律”的五度音程的差別。十二平均律在交響樂隊和鍵盤樂器中得到廣泛使用,現在的鋼琴即是根據十二平均律來定音的。

  • 音調

心理聲學中除了使用響度表達聲音的強度,使用音調來表達聽覺主觀感受,音調單位為MEL。

  • 音色

音色(Timbre)是指不同聲音表現在波形方面總是有與眾不同的特性,不同的物體振動都有不同的特點。音色是聲音的屬性(即響度、音調、音色)之一,主要由其泛音決定。每個人的聲音以及各種樂器所發出的聲音的區別,就是由音色不同造成的。

不同的發聲體由於其材料、結構不同,則發出聲音的音色也不同。例如鋼琴、小提琴和人發出的聲音不一樣,每一個人發出的聲音也不一樣。音色是聲音的特點,和全世界人們的相貌一樣總是與眾不同。根據不同的音色,即使在同一音高和同一聲音強度的情況下,我們也能區分出是不同樂器或人發出的。如同千變萬化的調色盤是的顏色一樣,“音色”也會千變萬化而容易理解。

音色又稱為音品。為什么音色不同?是由於不同的振動總是可組合成為不同的聲音。每一種樂器、不同的人的聲帶,以及其它所有的能振動的物體都能夠發出各有特色的不同的聲音,這些聲音的還可以有儀器顯示出波形波形。聲音除了有一個‘基音’外,還自然而然加上許多不同‘頻率’(振動的物體1秒鍾振動的次數)與泛音‘交織’,就決定了不同的音色,使人聽了以后能辨別出是不同的聲音。如同區分不同的‘身份證’一樣。

一般來說,諧音越豐富音色越明亮也可能越尖銳,相反的,諧音貧乏的聽起來更具有暗淡或柔和的音色。除了頻譜,音色還與波的時間結構(包絡)有關,包含起始、穩定到衰減的特性。

5. 心理效應

  • 雙耳效應

聲源發出的聲波到雙耳的距離不同引起雙耳的強度差、時間差和相位差。一側耳朵出現的遮蔽效應也會引起強度差和音色差等。

  • 哈斯效應

哈斯效應又稱之為延時效應或優先效應,表征人耳對延時聲的分辨能力,2個同樣的聲音先后到達,若其中一個快5-35ms那么人耳幾乎察覺不到延遲,后一個起到豐滿補充的作用;如果相差30-50ms人耳會有一定察覺但仍然取決於先到的聲音方向;如果相差50ms以上,人耳就能分辨2個聲音各自的來源方向。

  • 德波埃效應

作為立體聲系統定向的基礎之一,聲強級差與時間差所引起的效是是類似的,其間可以相互補償,並且聲強級差在15dB以下、時間差在3ms以內時,它們之間呈線性關系,每5dB的聲強級差引起的聲像偏移相當於兩聲音引起的時間差1ms的效果,這便是德波埃效應。

  • 掩蔽效應

一個較弱的聲音的聽覺感受被另一個較強的聲音影響的現象,我們就稱之為人耳的“掩蔽效應”。“掩蔽效應”存在時域和頻域掩蔽,“掩蔽效應”在實際聲學應用中有很重要的作用,比如MP3壓縮技術就采用了掩蔽效應。

  • 雞尾酒效應

描述在嘈雜環境中,人耳可以在掩蔽聲中選擇有用的聲音並專注於想聽的內容,表征了人在聽覺上的選擇關注能力。


PS:更多技術干貨,快關注【公眾號 | xingzhe_ai】,與行者一起討論吧!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM