一段訊飛、百度等語音識別API無法識別的語音最終解決辦法


  最近在做語音識別、字幕扒詞相關的工作,遇到了一段錄音(https://download.csdn.net/download/u014220286/12169183,各位有興趣的可以下載下來試試),音質什么的和其他處理過的無二異,也是普通話,照常理說應該能識別出來,可為了類似這樣的語音丟了工作機會(前一次沒重視人工速錄交了,后來又遇到了,琢磨了好長時間解決了,過了交稿時間,產生信任危機了,沒有機會合作了。)記錄下這次的解決過程,希望給你有需要的人幫助。
  首先用ffmpeg查看該音頻,發現是32是浮點數,立體聲,轉成16K單聲道的,沒有解決,后來想到是不是因為噪聲的緣故,做了噪聲消除后效果依舊;甚至懷疑到了和聲音內容有關(兩次音頻都是和法律相關的),以前也做過庭審的例子,拿出來用ffmpeg查看音頻信息,摸索半天發現可能是聲道的問題。
  找到了問題可能的點,於是在強大的音頻處理軟件audacity中進行了嘗試,具體步驟如下:
  在audacity中導入音頻,在左側面板中下拉三角的菜單中選擇“分離立體聲”,分離好后“禁用”一個聲道,然后在菜單中選擇“導出”,導出音頻,導出的音頻就可以識別了。
  雖然沒有嘗試用程序解決,但有了方法,又不太耗時,總算解決了一個難點,下次不至於為此類問題失去工作機會了。
  解決前訊飛的識別結果:
   處理后的識別結果:
 
 
  

  

  HTWCore下載:

  鏈接:https://pan.baidu.com/s/1k4zjpMBbUf-Okczd6xUogQ 提取碼:qs52

  或者加QQ群:414750884


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM