心理聲學基礎

本文轉載自查看原文 2021-02-18 11:08 435

本文首發於：行者AI

聲音雖然客觀存在，但是人的主觀聽覺和客觀實際存在差異化。心理聲學研究的就是聲音的主觀感覺和物理量之間的關系，因為人耳聽覺對聲音的主觀響應是評價音質好壞的唯一標准。對於復雜的聲音，從主觀可以用響度、音高和音色來描述。客觀上，響度和音高與聲波的振幅（幅度）有關，音色和頻譜及包絡有關，而音高與頻譜的頻率有關。

1. 聲音強度

聲波的幅度可以用聲壓或者聲強來表示，而實際中常常使用級來表示，分貝則是常用的級的單位。采用級的主要原因有：

a. 聲音震動的能量范圍比較大，最大與最小值可以相差10多個數量級，表示起來比較麻煩且易出錯。使用對數表示則要方便許多。

b. 人耳聽覺增長規律非線性，主觀上的響度感覺並不正比於強度而是接近於強度的對數成正比。

分貝（decibel）是量度兩個相同單位之數量比例的單位，主要用於度量聲音強度，常用dB表示。“分”（deci-）指十分之一，個位是“貝”（bel），但一般只采用分貝。

2. 聲功率級、聲強級和聲壓級

聲功率級

聲功率級是聲功率與基准聲功率之比的以10為底的對數乘以10，以分貝計。基准聲功率必須指明。其數字表示式為SWL=10lg(W/Wo)，常用基准聲功率Wo為10-12W。

聲強級

聲強級指某一處的聲強級，是指該處的聲強與參考聲強的比值常用對數的值再乘以10，度量它的單位為分貝，符號為dB。數學表達式為SIL=10log(I/I(ref))，參考聲強I(ref)是10-12瓦/米2。

聲壓級

聲壓級指在空氣中參考聲壓p(ref）一般取為2*10E-5帕，這個數值是正常人耳對1千赫聲音剛剛能覺察其存在的聲壓值，也就是1千赫聲音的可聽閾聲壓。數學表達式為：SPL=20lg(p/p(ref))。

生活中所到的正常交談約60dB噪音在80dB左右以上而安全極限為140dB，這里使用的就是聲壓級。

librosa.power_to_db

librosa中計算分貝，直接使用兩個相同的物理量（例如A1和A0）之比取以10為底的對數並乘以10（也可以是20）。

@cache(level=30)
def power_to_db(S, ref=1.0, amin=1e-10, top_db=80.0):
    S = np.asarray(S)
    if amin <= 0:
        raise ParameterError('amin must be strictly positive')

    if np.issubdtype(S.dtype, np.complexfloating):
        warnings.warn('power_to_db was called on complex input so phase '
                      'information will be discarded. To suppress this warning, '
                      'call power_to_db(magphase(D, power=2)[0]) instead.')
        magnitude = np.abs(S)
    else:
        magnitude = S

    if six.callable(ref):
        # User supplied a function to calculate reference power
        ref_value = ref(magnitude)
    else:
        ref_value = np.abs(ref)

    log_spec = 10.0 * np.log10(np.maximum(amin, magnitude))
    log_spec -= 10.0 * np.log10(np.maximum(amin, ref_value))

    if top_db is not None:
        if top_db < 0:
            raise ParameterError('top_db must be non-negative')
        log_spec = np.maximum(log_spec, log_spec.max() - top_db)

    return log_spec

3. 聽覺的頻率響應、響度

級表明人耳對信號的強度呈非線性增長的特點，然而2個相同聲級的聲音人耳聽起來也不一定相同，這是因為人耳的聽覺頻響是不平直的。

等響曲線

從等響曲線圖中我們發現，人耳對高頻的聲音更加敏感，同樣聲壓級下的高頻聲音響度級比低頻的高。一般女性發聲的高頻成分較多，而男性發聲的低頻成分相對較多，這就是在同樣力氣講話時（聲壓級相同），女性的聲音聽上去更加響的原因。

聽覺頻響

聲壓級越高，人的聽覺頻響越平直，隨着聲壓級降低人的聽覺頻響月不平直，尤其在中低頻下跌幅度越大。而無論聲壓級多大，低於20Hz和高於20kHz的聲音一般聽不到而對3-5kHz頻率段最敏感。

響度

響度級和等響曲線描述了人耳的聽覺頻響，但要描述人耳對聲音大小強弱的主觀判斷需要引入響度。響度是一個無量綱單位。

4. 音高音階

人耳對聲音高低的感覺主要與頻率有關，人耳的音高感覺大致與聲音的基頻對數呈線性關系，12平均律音階就是在頻率的對數上取等分得到的。

倍程

倍頻程是頻程的單位，符號為oct，等於2個音的頻率比取2位底的對數，在音樂中稱之為八度。n=log2(f2/f1)

12平均律

十二平均律，亦稱“十二等程律”,世界上通用的一組音（八度）分成十二個半音音程的律制，各相鄰兩律之間的振動數之比完全相等。十二平均律是指八度的音程（一倍頻程）按頻率比例地分成十二等份，每一等份稱為一個半音小二度。

一個大二度則是兩等份。將一個八度分成12等份有着驚人的一些湊巧。它的純五度音程的兩個音的頻率比（即2 的7/12 次方）與1.5 非常接近，人耳基本上聽不出“五度相生律”和“十二平均律”的五度音程的差別。十二平均律在交響樂隊和鍵盤樂器中得到廣泛使用，現在的鋼琴即是根據十二平均律來定音的。

音調

心理聲學中除了使用響度表達聲音的強度，使用音調來表達聽覺主觀感受，音調單位為MEL。

音色

音色（Timbre）是指不同聲音表現在波形方面總是有與眾不同的特性，不同的物體振動都有不同的特點。音色是聲音的屬性（即響度、音調、音色）之一，主要由其泛音決定。每個人的聲音以及各種樂器所發出的聲音的區別，就是由音色不同造成的。

不同的發聲體由於其材料、結構不同，則發出聲音的音色也不同。例如鋼琴、小提琴和人發出的聲音不一樣，每一個人發出的聲音也不一樣。音色是聲音的特點，和全世界人們的相貌一樣總是與眾不同。根據不同的音色，即使在同一音高和同一聲音強度的情況下，我們也能區分出是不同樂器或人發出的。如同千變萬化的調色盤是的顏色一樣，“音色”也會千變萬化而容易理解。

音色又稱為音品。為什么音色不同？是由於不同的振動總是可組合成為不同的聲音。每一種樂器、不同的人的聲帶，以及其它所有的能振動的物體都能夠發出各有特色的不同的聲音，這些聲音的還可以有儀器顯示出波形波形。聲音除了有一個‘基音’外，還自然而然加上許多不同‘頻率’（振動的物體1秒鍾振動的次數）與泛音‘交織’，就決定了不同的音色，使人聽了以后能辨別出是不同的聲音。如同區分不同的‘身份證’一樣。

一般來說，諧音越豐富音色越明亮也可能越尖銳，相反的，諧音貧乏的聽起來更具有暗淡或柔和的音色。除了頻譜，音色還與波的時間結構（包絡）有關，包含起始、穩定到衰減的特性。

5. 心理效應

雙耳效應

聲源發出的聲波到雙耳的距離不同引起雙耳的強度差、時間差和相位差。一側耳朵出現的遮蔽效應也會引起強度差和音色差等。

哈斯效應

哈斯效應又稱之為延時效應或優先效應，表征人耳對延時聲的分辨能力，2個同樣的聲音先后到達，若其中一個快5-35ms那么人耳幾乎察覺不到延遲，后一個起到豐滿補充的作用；如果相差30-50ms人耳會有一定察覺但仍然取決於先到的聲音方向；如果相差50ms以上，人耳就能分辨2個聲音各自的來源方向。

德波埃效應

作為立體聲系統定向的基礎之一，聲強級差與時間差所引起的效是是類似的，其間可以相互補償，並且聲強級差在15dB以下、時間差在3ms以內時，它們之間呈線性關系，每5dB的聲強級差引起的聲像偏移相當於兩聲音引起的時間差1ms的效果，這便是德波埃效應。

掩蔽效應

一個較弱的聲音的聽覺感受被另一個較強的聲音影響的現象，我們就稱之為人耳的“掩蔽效應”。“掩蔽效應”存在時域和頻域掩蔽，“掩蔽效應”在實際聲學應用中有很重要的作用，比如MP3壓縮技術就采用了掩蔽效應。

雞尾酒效應

描述在嘈雜環境中，人耳可以在掩蔽聲中選擇有用的聲音並專注於想聽的內容，表征了人在聽覺上的選擇關注能力。

PS：更多技術干貨，快關注【公眾號 | xingzhe_ai】，與行者一起討論吧！

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 聲學基礎和聲學基礎——2、自然大調【聲學基礎】20210918課堂筆記寫給理工科人看的樂理（一）聲學基礎和聲學基礎——4、大調的功能組、經典和聲進行反向心理與逆反心理心理邊界模糊（心理學）學習狀態以及心理調整