praat 語音識別教程


http://blog.csdn.net/shaopengfei/article/details/51363464

近期更新了幾篇Praat腳本從標注的TextGrid里提取數據一些腳本,發現有一些朋友會問到更細節的問題,於是有一個想法把結合Praat進行一個語音學上常用的實驗研究的步驟都整理出來,希望對需要的朋友有所幫助。其實從事語音研究的可能大部分是語言學專業,對一些軟件,腳本的使用可能不如工科類學生掌握快,而如果是一個工科出身的如果掌握這類的軟件,腳本,可能不屑於看太仔細的說明,本文是針對偏語言學專業,力求讓大家在進行實驗研究的時候,不會太糾結於如何使用,而能更快速的完成自己的實驗。歡迎提問,我會隨時更新,以便能夠力求完善。以下是我列出的一些主要操作,或者需要的相關研究,如果有更多的需求,未能 列出,歡迎指出。


准備:Praat的基本使用

Praat目前已經成為比較流行的語音處理的軟件,它的使用也很方便,目前在網上有很多類似的教程,最有名的當屬社科院語言所熊老師的教程,可以在語言所官方網站下載到,千萬不要輕信個別網站的信息去購買這個教程。我在這里只提幾個簡單的操作,打開文件,標注文件,認識語譜圖的幾個主要特征,以及保存文件,其它操作如有興趣可以下載熊老師的教程,仔細研讀。

打開文件

1. 打開Praat---Open---Read from file...---找到對應的聲音或者Textrid文件,打開即可


2. 打開到Praat窗口以后,創建一個空白的標注文件

Annotate---To TextGrid...

注意提前規划好你需要對這個聲音文件標注幾層信息,通常會標注音素信息,音節,或者字詞信息,韻律信息,或者一些其它的信息,任意多層都可以設置,在這里只舉例設置音素層和音節層。

3. 把聲音文件和TextGrid文件都選擇上,點擊View & Edit,就可以進行標注了,標注時,根據聽辨邊界,以及查看語圖的信息,確定音素或者音節的邊界。具體的操作可參考熊老師的教程。


4. 認識語圖上的幾個主要特征,如果看不到基頻線,共振峰線或者音強線,使用上面菜單上的show pitch, show formant, show intersity就可以了。


5. 保存文件

Praat---Save---Save as text file...---將這個標注文件保存為****.TextGrid即可。

第一步:錄音階段

語音學實驗肯定是離不開錄音,這里有很多選擇,但是這一步不是本文的重點,因為可能每個人要求、條件不同,理論上我們建議所有人的錄音都要高保真,即都要在專業的錄音棚里,保證所有的聲音在統一的條件下,幾乎做到沒有噪聲控制的最低,這樣的聲音是最好的。但是未必大家都會有這樣的條件,舉例來說,如果一個人要做一個小方言的研究,可能這個方言的區域都是比較偏遠的地區,這些地方甚至出行都比較困難,可能很難有這樣專業的錄音場所,而且由於錄音對象的選擇,也未必可能把所有錄音人都請到專業錄音棚里,所以這時候只能退而求其次,帶着一些設備到他們身邊,這也有一個專門的領域稱為“田野語音學”。所以這時候,你可能只能保證自己所帶的設備,盡量能夠做到抗噪性較好。我不是對設備比較專業的人,這方面可能可以咨詢一下記者類的工作人員,他們有一些便攜的設備可以采用。另外也可以通過自己的筆記本,配置一個外置聲卡,一個相對較專業的話筒,也足夠了。

不管是采用什么方式,最終我們需要的是這些設備+軟件采集到的聲音文件,通常我們需要的是wav格式,盡量不要使用mp3之類的格式,這是經過壓縮的。wav格式一般注意一下采樣率在16K以上,具體的錄音過程請搜索更專業的文章,如果是用個人電腦錄音,推薦使用CoolEdit或者Adobe Audition錄音。

另外在錄音時還有一個細節,相信每個人的研究都不是簡單的幾個聲音,而是成批的,比如上百個聲音,或者上千個,每個聲音單位可能是一個元音輔音,一個字,一個詞,一個句子。。。這時候就要注意錄音的方式了。一種方式是你每錄完一個單位,比如錄完一個詞“開始”,然后停下錄音,然后把這個聲音保存為比如Test001_開始.wav,然后進行下一個詞,如果這樣錄上千個聲音,那被錄音人可是受不了的!所以一般的情況,我們需要給一個列表,然后讓錄音人一直錄下去,最后把這個大的聲音要進行切分,切成這樣小的單位。為什么要切分呢?因為不切分,無論是標注,還是提取數據,等都非常不方便,而且不利於檢索。

這里就涉及到一個切分的方法問題,你可以再通過笨方法,用CoolEdit打開這個長聲音,一個聲音一個聲音的選擇上,然后分別保存為自己需要的名稱,幾千個文件下來,相信已經頭暈眼花,而且容易出錯。下一步就是推薦一個相對較靈巧的辦法,當然是可選的。另外這個辦法的前提你要保證錄音中每個單位之間有較足夠的停頓,而不是連接在一起的。以下給出一個例子,保持這樣的方式,就是比較容易使用自動切分的。

第二步:長聲音切分

請參考以下博文:Praat將連續錄制的聲音文件切成小單位文件

http://blog.csdn.net/shaopengfei/article/details/20928683


第三步:自動標注語音

借助自動語音標注軟件SPPAS,可以省去很多人工重復性的勞動。目前這個軟件在英語,法語,漢語上的測試都還湊合。其實一些語言也支持,請關注這個軟件的使用。

請參考以下博文:語音標注自動音段對齊工具SPPAS使用筆記

http://blog.csdn.net/shaopengfei/article/details/18351809

 

第四步:人工標注

上面介紹的自動標注,准確率還是差的很多,肯定還需要人工干預,好處就是不需要人工添加很多邊界等,所以本人還是推薦使用自動標注的方法,然后人工仔細調整邊界。本人提供了一個工具,通過這個工具,自動在Praat環境打開wav和TextGrid,然后標注完成之后,自動保存。

請參考以下博文:輔助Praat進行標注的工具

http://blog.csdn.net/shaopengfei/article/details/43020707


第五步:人工調整自動標注的結果

這一步參考第三步即可。

其它應用

第七步:提取參數-基頻

http://blog.csdn.net/shaopengfei/article/details/51007530

第八步:提取參數-共振峰

http://blog.csdn.net/shaopengfei/article/details/51026651

第九步:聲學元音圖

http://blog.csdn.net/shaopengfei/article/details/51026651

第十一步:漢字聲調圖

http://blog.csdn.net/shaopengfei/article/details/51007530


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM