
http://www.cnblogs.com/yin52133/archive/2012/06/21/2557219.html - (一)基本運行測試 http://www.cnblogs.com/yin52133/archive/2012/07/12/2587282.html - (二)自然語言處理原理研究 http://www.cnblogs.com/yin52133/archive/2012/07/12/2587419.html - (三)小范圍語音英文識別 http://www.cnblogs.com/yin52133/archive/2012/07/12/2588201.html - (四)小范圍語音中文識別 http://www.cnblogs.com/yin52133/archive/2012/06/22/2558806.html - (五)錯誤調試 http://www.cnblogs.com/yin52133/archive/2012/07/12/2588418.html - (六)我的目標和幾個想像的方案(閑置中)
(1)一開始只是因為英文比較差,看不懂沒有字幕的公開課
然后想現在語音識別發展了那么久,能不能用語音識別先做出一套簡陋的英文字幕,然后再通過google翻譯(PS:別鄙視我)
翻譯出簡陋的中文字幕。
然后我就來研究了一陣子,目前預想的流程方案是這樣的
首先是提取語音和分割,語音提取應該可以用開源庫FFMPEG,提取語音流
而且記得之前還看到過語音斷句工具,再把之前的語音流斷句,並把時間點存到數據庫,
然后每個音頻流經過我們的項目,識別出英文語句。(每段音頻流,經過識別后,把識別出來的文字扔到每個時間段內就是字幕了)
至於怎么訓練出來那么大lm和hmm,
因為lm和hmm分別需要大量的語料庫和對應的音頻訓練,我目前的設想是
就是用大量已有原文字幕的公開課,截圖音頻流,做成我們所需要的音頻流,然后使用這個音頻流和字幕文本,訓練lm和hmm
這樣,訓練條件里說的,大量的人說話,很長的語料庫和對應的很長的音頻就出來了
目前大體是這樣構想的、不過這個項目需要大量的人力。。。一個人做不來,求有想法的人一起搞
(2)windows 下用來做簡單操作的小工具,語音識別並執行 關閉窗口、最大化、最小化、聲音提高/降低、打開我的電腦、回收站之類的操作
有什么想法可以聯系我
我的郵箱 yin52133@126.com
至於有什么覺得有問題的地方也可以留言討論啊,我喜歡討論
因時間和人力問題,先暫時閑置