為什么要做質量評估,原因有幾個方面,比如大家除了面對面交流,在通話,刷視頻,聽音樂等等活動中的音頻是經過了編解碼壓縮處理的,是為了便於更小代價的傳輸和存儲;像原始聲音中摻雜噪聲的去除,原始說話聲音的增強處理等;可以看出不管是編解碼處理還是其他語音處理,目的都是讓人聽起來更舒服,因此質量評估方法就是評估在對於聲音進行處理后的人聽起來的感受度情況。
音頻評估方法分為主觀評價和客觀評價。
主觀評價其實就是人憑借聽覺感受對語音進行打分,常見的有 MOS、CMOS 和 ABX Test;像 AB TEST 在我早期的工作中經常使用到,比如對語音增強算法做了小的優化,想得到實際聽覺的感受改善情況,就會把原始算法和優化后算法處理后的語音進行編組,讓小伙伴們幫忙測試打分,以此判斷是變優還是變差。國際電信聯盟(ITU)將語音質量的主觀評價方法做了標准化處理,代號為 ITU-T P.800.1。其中收聽質量的絕對等級評分(Absolute Category Rating, ACR) 是目前比較廣泛采用的一種主觀評價方法。參與評測的人員對語音整體質量進行打分,分值范圍為 1-5 分,分數越大表示語音質量最好。這種 MOS 值分數后來也應用於客觀質量評價。一般 MOS 應為 4 或者更高的,會被認為是比較好的語音質量,一旦 MOS 低於 3.6,則這個語音質量基本不太能接受。
客觀評價則主要是使用算法代替人打分的工作,通過算法來評測聲音的質量。在客觀評價中又分為有參考評價和無參考評價。
-
有參考評價(intrusive method)顧名思義,需要聲音源素材進行對比,因此這種方法只能用在線下處理上,對於實時通話處理是不可能做到的;常見的有像 ITU-T P.861(MNB), ITU-T P.862(PESQ)[2], ITU-T P.863(POLQA)[3], STOI[4], BSSEval[5],
-
無參考評價(non intrusive method)則不需要聲音源素材,常見的有 ITU-T P.563[6], ANIQUE+[7],ITU-T G.107(E-Model)[8],基於 AI 深度學習的 AutoMOS[9], QualityNet[10], NISQA[11], MOSNet[12]等等
下面表中為主流語音編解碼 MOS 值測試評分(來自 Opus 官網,后來又出來了 MOS9,即最高分為 9 分
這里重點介紹下 PESQ 和 POLQA。
PESQ 屬於有參考的客觀評價方案,將兩個音頻信號作為輸入,其中一個由 itu 組織提供,另一個輸入為經過被測 voip 系統處理后的輸出信號。Pesq 算法通過對輸入的兩個信號提取時頻域或變換域特征參數的差異,再將特征參數差異經神經網絡模型映射得到客觀的音質分值。PESQ 分值其實就是對 MOS 值的一個映射。
POLQA 算法是新一代語音質量評估標准,適用於固網、移動通信網絡和 IP 網 絡 中 的 語 音 質 量 評 估 。 POLQA 被 ITU-T(International Telecommunication Union)確定為推薦規范 P.863,可用於高清語音、 3G、4G/VoLTE、5G 網絡語音質量評估。它用以替代和升級 2001 年發布的 PESQ(ITU-TRecommendation P.862)
與傳統 pesq 的區別在於,POLQA 算法具有以下優點:
-
增加對寬帶(Wideband)和超寬(SuperWideband)語音質量評估的能力,支持寬帶(48khz)。
-
支持最新的語音編碼和 VoIP 傳輸技術,針對現有的 opus、silk 編碼器進行過特殊優化。
-
支持多語言環境,各國語言都支持。ITU 組織提供標准測試語料,可進行針對性測試。
當然音頻質量評估不只是評估編解碼,同樣還有其他因素會影響,像 VAD 傳輸,丟包補償,網絡質量變化(時延/抖動/丟包),甚至包括設備采集。
像上述的無論有參考和無參考,都有其應用的局限性,包括使用場景比較窄,魯棒性差,復雜度高等問題,而要克服上述的問題,就需要一套覆蓋多場景,性能運行幾乎無感知的質量評估算法及體系,因此聲網自行開發了一套獨有的音頻質量評估手段。包括上行質量評估和下行質量評估。
上行鏈路聲音經歷采集-AEC(回聲消除)-NS(噪聲抑制)-AGC(增益)處理過程,因此質量評估包含了設備采集穩定性/回聲消除能力/噪聲抑制能力/音量增益能力的處理效果。
下行鏈路則主要是通過設備播放給人聽,經過編解碼-網絡傳輸-弱網對抗(我理解是 VAD/PLC/糾錯等處理)-設備播放,最終多弱網,多設備,多模式測試下,其算法與 POLQA 誤差值小於 0.15,可以說是達到了不錯的效果。