人聲識別之webrtcvad

本文轉載自查看原文 2021-06-24 09:20 154 Python

1. 簡介

Google開源的用於人聲識別，輸入支持10ms,20ms,30ms的音頻段，采樣率支持8000, 16000, 32000 or 48000 Hz
github 地址：https://github.com/wiseman/py-webrtcvad

2. python中安裝以及使用

直接pip進行安裝

pip install webrtcvad

使用

# 創建一個 Vad 對象：
import webrtcvad
vad = webrtcvad.Vad()

# 可選地，設置它的攻擊性模式，它是一個介於 0 和 3 之間的整數。0 是過濾非語音的最不積極的，3 是最積極的。 （您也可以在創建 VAD 時設置模式，例如 vad = webrtcvad.Vad(3)）：
vad.set_mode(1)

# 給它一小段（“幀”）的音頻。 WebRTC VAD 僅接受 16 位單聲道 PCM 音頻，采樣頻率為 8000、16000、32000 或 48000 Hz。 幀的持續時間必須為 10、20 或 30 毫秒：

# 在 10 毫秒的靜默狀態下運行 VAD。 結果應該是False。
sample_rate = 16000
frame_duration = 10 # 毫秒
frame = b'\x00\x00' * int(sample_rate * frame_duration / 1000)
prtin('Contains speech：%s' % (vad.is_speech(frame, sample_rate) )

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 人聲提取工具Spleeter安裝教程（Windows）語音活性檢測器py-webrtcvad安裝使用使用庫樂隊模擬人聲的簡易方法伴奏人聲分離工具 Spleeter 免費、本地處理、無限制華為音頻編輯服務，實時分離人聲、伴奏和樂器聲 OCR識別人臉識別車牌識別圖像識別之物體識別開源的文字識別，文字場景識別