早期語音質量的評價方式是憑主觀的,人們在打通電話之后通過人耳來感知語音質量的好壞。1996年國際ITU組織在ITU-T P.800和P.830建議書開始制訂相關的評測標准:MOS(Mean Opinion Score)測試。
它是一種主觀測試方法,將用戶接聽和感知語音質量的行為進行調研和量化,由不同的調查用戶分別對原始標准語音和經過無線網傳播后的衰退聲音進行主觀感受對比,評出MOS分值,
在后來的研究和探索中,先后出現了如下幾種客觀測量方法:
- PSQM /PSQM+:Perceptual Speed Quality Measure,感知通話質量測量[2],定義在ITU-T P.861當中;
- PESQ:Perceptual Evaluation of Speed Quality,感知評估通話質量測量[3],定義在ITU-T P.862當中;
- PAMS:Perceptual Analysis Measurement System,感知分析測量,英國電信定義;
- E-Model:該方法定義在ITU-T G.107當中。
PSQM和PAMS測量方法都需要發送一個語音參考信號通過電話網絡,在網絡的另一端采用數字信號處理的方式比較樣本信號和接收到的信號,進而估算出網絡的語音質量。PESQ結合了PSQM和PAMS的優勢,並針對MOS和MOS-LQ(Listening Quality)計算方法做了修改。
最開始這些方法被用於測量編碼算法和在實驗室分析設備問題,如分析電話機的語音質量;並且都是基於PSTN網絡,因此並不適合應用到VoIP網絡系統的語音測量。這些方法主要缺點體現在:
- 不是基於IP網絡的方法,不能反應IP網絡的衰減問題,如網絡傳輸中的Delay和Jitter和Packet Loss等問題;
- 不能說明End-to-End的網絡延遲,而其他過多的延遲因素影響到了MOS值;
- 只能輸出在任何時間內的某一方向的語音質量,不是真實通話中的雙向結果;
- 無法模擬多個或成百上千個重復同步的通話。
此外,有必要指出,平均主觀值MOS是廣泛認同的語音質量標准。因此,無論采用何種方法,所有測量方法所得到的結果都必須對應到最終的平均主觀值MOS。
參考文檔:
1 http://www.emakerzone.com/test_comment_info/460/1
2 https://github.com/ludlows/python-pesq
3 https://github.com/dennisguse/ITU-T_pesq