最近在做語音識別、字幕扒詞相關的工作,遇到了一段錄音(https://download.csdn.net/download/u014220286/12169183,各位有興趣的可以下載下來試試),音質什么的和其他處理過的無二異,也是普通話,照常理說應該能識別出來,可為了類似這樣的語音丟了工作機會(前一次沒重視人工速錄交了,后來又遇到了,琢磨了好長時間解決了,過了交稿時間,產生信任危機了,沒有機會合作了。)記錄下這次的解決過程,希望給你有需要的人幫助。
首先用ffmpeg查看該音頻,發現是32是浮點數,立體聲,轉成16K單聲道的,沒有解決,后來想到是不是因為噪聲的緣故,做了噪聲消除后效果依舊;甚至懷疑到了和聲音內容有關(兩次音頻都是和法律相關的),以前也做過庭審的例子,拿出來用ffmpeg查看音頻信息,摸索半天發現可能是聲道的問題。
找到了問題可能的點,於是在強大的音頻處理軟件audacity中進行了嘗試,具體步驟如下:
在audacity中導入音頻,在左側面板中下拉三角的菜單中選擇“分離立體聲”,分離好后“禁用”一個聲道,然后在菜單中選擇“導出”,導出音頻,導出的音頻就可以識別了。
雖然沒有嘗試用程序解決,但有了方法,又不太耗時,總算解決了一個難點,下次不至於為此類問題失去工作機會了。
解決前訊飛的識別結果:

處理后的識別結果:

HTWCore下載:
鏈接:https://pan.baidu.com/s/1k4zjpMBbUf-Okczd6xUogQ 提取碼:qs52
或者加QQ群:414750884