Sphinx語音識別學習記錄 (六)-我的目標和幾個想像的方案(閑置中)


CMUSphinx系列目錄
http://www.cnblogs.com/yin52133/archive/2012/06/21/2557219.html - (一)基本運行測試

http://www.cnblogs.com/yin52133/archive/2012/07/12/2587282.html - (二)自然語言處理原理研究

http://www.cnblogs.com/yin52133/archive/2012/07/12/2587419.html - (三)小范圍語音英文識別

http://www.cnblogs.com/yin52133/archive/2012/07/12/2588201.html - (四)小范圍語音中文識別

http://www.cnblogs.com/yin52133/archive/2012/06/22/2558806.html - (五)錯誤調試

http://www.cnblogs.com/yin52133/archive/2012/07/12/2588418.html - (六)我的目標和幾個想像的方案(閑置中)

 

(1)一開始只是因為英文比較差,看不懂沒有字幕的公開課

然后想現在語音識別發展了那么久,能不能用語音識別先做出一套簡陋的英文字幕,然后再通過google翻譯(PS:別鄙視我)

翻譯出簡陋的中文字幕。

然后我就來研究了一陣子,目前預想的流程方案是這樣的

 

首先是提取語音和分割,語音提取應該可以用開源庫FFMPEG,提取語音流

而且記得之前還看到過語音斷句工具,再把之前的語音流斷句,並把時間點存到數據庫,

然后每個音頻流經過我們的項目,識別出英文語句。(每段音頻流,經過識別后,把識別出來的文字扔到每個時間段內就是字幕了)

 

至於怎么訓練出來那么大lm和hmm,

因為lm和hmm分別需要大量的語料庫和對應的音頻訓練,我目前的設想是

就是用大量已有原文字幕的公開課,截圖音頻流,做成我們所需要的音頻流,然后使用這個音頻流和字幕文本,訓練lm和hmm

這樣,訓練條件里說的,大量的人說話,很長的語料庫和對應的很長的音頻就出來了

 

目前大體是這樣構想的、不過這個項目需要大量的人力。。。一個人做不來,求有想法的人一起搞

 

(2)windows 下用來做簡單操作的小工具,語音識別並執行 關閉窗口、最大化、最小化、聲音提高/降低、打開我的電腦、回收站之類的操作

 

有什么想法可以聯系我

我的郵箱 yin52133@126.com

至於有什么覺得有問題的地方也可以留言討論啊,我喜歡討論

 

因時間和人力問題,先暫時閑置


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM