Sphinx語音識別學習記錄（六）-我的目標和幾個想像的方案（閑置中）

本文轉載自查看原文 2012-07-12 16:52 3739 自然語言處理/ cmusphinx

CMUSphinx系列目錄

http://www.cnblogs.com/yin52133/archive/2012/06/21/2557219.html - （一）基本運行測試

http://www.cnblogs.com/yin52133/archive/2012/07/12/2587282.html - （二）自然語言處理原理研究

http://www.cnblogs.com/yin52133/archive/2012/07/12/2587419.html - （三）小范圍語音英文識別

http://www.cnblogs.com/yin52133/archive/2012/07/12/2588201.html - （四）小范圍語音中文識別

http://www.cnblogs.com/yin52133/archive/2012/06/22/2558806.html - （五）錯誤調試

http://www.cnblogs.com/yin52133/archive/2012/07/12/2588418.html - （六）我的目標和幾個想像的方案（閑置中）

(1)一開始只是因為英文比較差，看不懂沒有字幕的公開課

然后想現在語音識別發展了那么久，能不能用語音識別先做出一套簡陋的英文字幕，然后再通過google翻譯（PS：別鄙視我）

翻譯出簡陋的中文字幕。

然后我就來研究了一陣子，目前預想的流程方案是這樣的

首先是提取語音和分割，語音提取應該可以用開源庫FFMPEG，提取語音流

而且記得之前還看到過語音斷句工具，再把之前的語音流斷句，並把時間點存到數據庫，

然后每個音頻流經過我們的項目，識別出英文語句。（每段音頻流，經過識別后，把識別出來的文字扔到每個時間段內就是字幕了）

至於怎么訓練出來那么大lm和hmm，

因為lm和hmm分別需要大量的語料庫和對應的音頻訓練，我目前的設想是

就是用大量已有原文字幕的公開課，截圖音頻流，做成我們所需要的音頻流，然后使用這個音頻流和字幕文本，訓練lm和hmm

這樣，訓練條件里說的，大量的人說話，很長的語料庫和對應的很長的音頻就出來了

目前大體是這樣構想的、不過這個項目需要大量的人力。。。一個人做不來，求有想法的人一起搞

(2)windows 下用來做簡單操作的小工具，語音識別並執行關閉窗口、最大化、最小化、聲音提高/降低、打開我的電腦、回收站之類的操作

有什么想法可以聯系我

我的郵箱 yin52133@126.com

至於有什么覺得有問題的地方也可以留言討論啊，我喜歡討論

因時間和人力問題，先暫時閑置

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Sphinx語音識別學習記錄（一）-基本運行測試 Sphinx語音識別學習記錄（五）-錯誤調試 Sphinx語音識別學習記錄（三）-小范圍語音英文識別 Sphinx語音識別學習記錄（四）-小范圍語音中文識別 Sphinx語音識別學習記錄（二）-自然語言處理原理研究 IOS開發學習筆記（二）語音識別語音識別中喚醒技術調研語音識別-TDNN Python 語音識別語音識別 -- 概述

Sphinx語音識別學習記錄 （六）-我的目標和幾個想像的方案（閑置中）

免責聲明！

Sphinx語音識別學習記錄（六）-我的目標和幾個想像的方案（閑置中）