常用有話幀檢測技術（VAD）

本文轉載自查看原文 2017-05-31 20:07 3712 20-音頻信號

作者：桂。

時間：2017-05-31 17:43:22

前言

總結一下基本的有話幀檢測（Voice activity detection, VAD）技術，基於神經網絡的待后面梳理完神經網絡的理論后再作整理。

一、雙門限

這是一種Boosting的思路，即：兩個弱分類器可以組合更強的分類器，依次類推，三、四門限其實都可。每一種門限對應一種判決准則。

基本的雙門限：短時能量+短時過零率，其原理是元音能量較大，用短時平均能量檢測，輔音頻率較高，用短時平均過零率檢測。

考慮到噪聲的影響，通常作平滑處理。如：中值濾波，medfilt.

二、相關

該算法通過計算信號的相關系數，主要利用信號、噪聲相關系數的差異性。依次擴展的方法包括：1）最大端點檢測;2）利用相關函數的歸一化R，主/副峰比值;3)音頻的相關函數具有一定的周期性，可以轉換成余弦求解→自相關函數余弦角值的端點檢測。

三、方差

語音與噪聲在頻譜域中差異大，有話幀：隨頻帶變化較大，噪聲變化較小，此類方法推廣的應用：1）均勻子帶划分;2）Bark子帶划分;3)小波包Bark子帶。

四、譜熵

熵是衡量不確定性的量度，噪聲在頻譜分布較均勻，熵較大;語音分布不均勻，熵較小，歸一化的能量得到概率密度，依此計算出熵，利用該原理可以實現VAD檢測。

五、能零比和能熵比

能零比：短時能量與短時過零率的比值;

能熵比：短時能量與譜熵的比值。

六、其他方法

EMD的端點檢測，本質是降噪+VAD檢測，丟棄EMD分解的高頻分量，對剩余的IMF分量進行VAD檢測。

小波變換與基於EMD的方法大同小異。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 提綱挈領webrtc之vad檢測語音端點檢測（Voice Activity Detection,VAD）幀同步檢測碰撞幀同步技術總結語音激活檢測(VAD)--前向神經網絡方法(Alex) 【Matlab】運動目標檢測之“幀差法” 前景檢測算法_2(幀差法1) 長參考幀技術（LTR）反調試技術常用API，用來對付檢測od和自動退出程序六：入侵檢測技術實戰