praat 語音識別教程

本文轉載自查看原文 2017-04-28 09:43 1308 嵌入式技術

http://blog.csdn.net/shaopengfei/article/details/51363464

近期更新了幾篇Praat腳本從標注的TextGrid里提取數據一些腳本，發現有一些朋友會問到更細節的問題，於是有一個想法把結合Praat進行一個語音學上常用的實驗研究的步驟都整理出來，希望對需要的朋友有所幫助。其實從事語音研究的可能大部分是語言學專業，對一些軟件，腳本的使用可能不如工科類學生掌握快，而如果是一個工科出身的如果掌握這類的軟件，腳本，可能不屑於看太仔細的說明，本文是針對偏語言學專業，力求讓大家在進行實驗研究的時候，不會太糾結於如何使用，而能更快速的完成自己的實驗。歡迎提問，我會隨時更新，以便能夠力求完善。以下是我列出的一些主要操作，或者需要的相關研究，如果有更多的需求，未能列出，歡迎指出。

准備：Praat的基本使用

Praat目前已經成為比較流行的語音處理的軟件，它的使用也很方便，目前在網上有很多類似的教程，最有名的當屬社科院語言所熊老師的教程，可以在語言所官方網站下載到，千萬不要輕信個別網站的信息去購買這個教程。我在這里只提幾個簡單的操作，打開文件，標注文件，認識語譜圖的幾個主要特征，以及保存文件，其它操作如有興趣可以下載熊老師的教程，仔細研讀。

打開文件

1. 打開Praat---Open---Read from file...---找到對應的聲音或者Textrid文件，打開即可

2. 打開到Praat窗口以后，創建一個空白的標注文件

Annotate---To TextGrid...

注意提前規划好你需要對這個聲音文件標注幾層信息，通常會標注音素信息，音節，或者字詞信息，韻律信息，或者一些其它的信息，任意多層都可以設置，在這里只舉例設置音素層和音節層。

3. 把聲音文件和TextGrid文件都選擇上，點擊View & Edit，就可以進行標注了，標注時，根據聽辨邊界，以及查看語圖的信息，確定音素或者音節的邊界。具體的操作可參考熊老師的教程。

4. 認識語圖上的幾個主要特征，如果看不到基頻線，共振峰線或者音強線，使用上面菜單上的show pitch, show formant, show intersity就可以了。

5. 保存文件

Praat---Save---Save as text file...---將這個標注文件保存為****.TextGrid即可。

第一步：錄音階段

語音學實驗肯定是離不開錄音，這里有很多選擇，但是這一步不是本文的重點，因為可能每個人要求、條件不同，理論上我們建議所有人的錄音都要高保真，即都要在專業的錄音棚里，保證所有的聲音在統一的條件下，幾乎做到沒有噪聲控制的最低，這樣的聲音是最好的。但是未必大家都會有這樣的條件，舉例來說，如果一個人要做一個小方言的研究，可能這個方言的區域都是比較偏遠的地區，這些地方甚至出行都比較困難，可能很難有這樣專業的錄音場所，而且由於錄音對象的選擇，也未必可能把所有錄音人都請到專業錄音棚里，所以這時候只能退而求其次，帶着一些設備到他們身邊，這也有一個專門的領域稱為“田野語音學”。所以這時候，你可能只能保證自己所帶的設備，盡量能夠做到抗噪性較好。我不是對設備比較專業的人，這方面可能可以咨詢一下記者類的工作人員，他們有一些便攜的設備可以采用。另外也可以通過自己的筆記本，配置一個外置聲卡，一個相對較專業的話筒，也足夠了。

不管是采用什么方式，最終我們需要的是這些設備+軟件采集到的聲音文件，通常我們需要的是wav格式，盡量不要使用mp3之類的格式，這是經過壓縮的。wav格式一般注意一下采樣率在16K以上，具體的錄音過程請搜索更專業的文章，如果是用個人電腦錄音，推薦使用CoolEdit或者Adobe Audition錄音。

另外在錄音時還有一個細節，相信每個人的研究都不是簡單的幾個聲音，而是成批的，比如上百個聲音，或者上千個，每個聲音單位可能是一個元音輔音，一個字，一個詞，一個句子。。。這時候就要注意錄音的方式了。一種方式是你每錄完一個單位，比如錄完一個詞“開始”，然后停下錄音，然后把這個聲音保存為比如Test001_開始.wav，然后進行下一個詞，如果這樣錄上千個聲音，那被錄音人可是受不了的！所以一般的情況，我們需要給一個列表，然后讓錄音人一直錄下去，最后把這個大的聲音要進行切分，切成這樣小的單位。為什么要切分呢？因為不切分，無論是標注，還是提取數據，等都非常不方便，而且不利於檢索。

這里就涉及到一個切分的方法問題，你可以再通過笨方法，用CoolEdit打開這個長聲音，一個聲音一個聲音的選擇上，然后分別保存為自己需要的名稱，幾千個文件下來，相信已經頭暈眼花，而且容易出錯。下一步就是推薦一個相對較靈巧的辦法，當然是可選的。另外這個辦法的前提你要保證錄音中每個單位之間有較足夠的停頓，而不是連接在一起的。以下給出一個例子，保持這樣的方式，就是比較容易使用自動切分的。