最近因為項目需要對聲音進行變聲,所以邊學習邊做,發現音頻的處理思路並不難,但是做起來還是有些繁瑣的(比預期的)
趁着腦子還發熱,趕緊把思路總結一下,記錄下來。
主要講三個部分
1,如何變聲2,安卓實現變聲3,ios實現變聲
1.如何變聲?
要想自己寫一個變聲的函數或者庫出來,談何容易,所以采用了大家普遍采用的庫SoundTouch。
該庫可以實現改變聲音的速度,節拍,音調(這個最重要,可以把聲音的音調調高調低,使之變成男生女生,可以參照湯姆貓),該庫中對外提供方法的類為SoundTouch類,該類提供了許多方法,其中最重要的就是setPitch,setRate這幾個調節聲音參數的方法,可以通過設置參數大小實現各種效果,該類在使用前需要初始化一下,設置預制參數如下:
mSoundTouchInstance->setSetting(SETTING_USE_QUICKSEEK, 0); mSoundTouchInstance->setSetting(SETTING_USE_AA_FILTER, !(0)); mSoundTouchInstance->setSetting(SETTING_AA_FILTER_LENGTH, 32); mSoundTouchInstance->setSetting(SETTING_SEQUENCE_MS, 40); mSoundTouchInstance->setSetting(SETTING_SEEKWINDOW_MS, 16); mSoundTouchInstance->setSetting(SETTING_OVERLAP_MS, 8);
然后設置音頻參數實現效果:
mSoundTouchInstance->setChannels(2); mSoundTouchInstance->setSampleRate(8000); mSoundTouchInstance->setPitch(2);
這里解釋一下音頻處理的幾個參數,很重要。
聲道:channals,可以是單聲道和雙聲道,分別對應1,2
采樣率:SampleRate 8000-44100不等,一般是常用的幾個值,安卓里面好像44100是所有設備都支持的,所以設置成44100比較保險吧
每個聲道的位數:bitsPerChannel 一般設置為16
每個幀的聲道數 ChannelsPerFrame 對於pcm數據來說,這個是1
還有幾個參數,對於安卓和ios可能說法不太一樣,以上幾個是都要用到的,比較重要,必須得掌握
2.Android中實現變聲
因為項目要求錄音要實時播放,所以需要采用讀取音頻數據流(PCM格式)來播放,采用的api是AudioRecorder和AudioTrack。這兩個類相關資料較多,官方文檔也比較詳細。難點是Android中調用c++庫需要使用到jni技術,這里就需要花一些力氣將SoundTouch編成so庫來使用了。對於這方面可以參考我的上一篇關於JNI的博客,也可以參考網上的資料,將SoundTouch類的幾個重要函數對應到java層的Native函數,然后在java層調用。
以下是我寫的代碼的一部分
首先初始化AudioTrack和AudioRecord:
//初始化AudioTrack
int trbusize=AudioTrack.getMinBufferSize(RECORDER_SAMPLERATE,AudioFormat.CHANNEL_OUT_STEREO, AudioFormat.ENCODING_PCM_16BIT); mAudioTrack = new AudioTrack(AudioManager.STREAM_MUSIC,RECORDER_SAMPLERATE, AudioFormat.CHANNEL_IN_STEREO, AudioFormat.ENCODING_PCM_16BIT, trbusize, AudioTrack.MODE_STREAM);
//初始化AudioRecord int rebusize = AudioRecord.getMinBufferSize(RECORDER_SAMPLERATE,
AudioFormat.CHANNEL_IN_STEREO,AudioFormat.ENCODING_PCM_16BIT); mAudioRecord= new AudioRecord(MediaRecorder.AudioSource.MIC,RECORDER_SAMPLERATE,
AudioFormat.CHANNEL_IN_STEREO, AudioFormat.ENCODING_PCM_16BIT, rebusize);
各項參數的含義可以參考api文檔,需要注意的是,因為不同設備支持的參數可能不同,需要時可以寫一個循環把所有可能的參數遍歷一遍。
之后是錄音和播放,可以分別放到兩個線程里面。一般來說都是把錄音數據保存到文件中,然后再進行播放,這樣可以應付一般的錄音需求。但不足之處在於,錄音時間久了,文件會很大,如果在網絡上實時播放的話這樣肯定不行。解決方法就是將錄音的數據傳到一個緩沖區,然后播放時直接從緩沖區取走數據即可。這個緩沖區可以考慮用循環隊列或者在java里面可以直接用一個LinkedList實現。
然后是變聲部分:
while(isInstancePlaying){ if(l<21){ byte[] mbyte=new byte[64]; mAudioRecord.read(mbyte,0,64); SoundTouch.getSoundTouch().putSamples(mbyte,0,INPUT_LENGTH); SoundTouch.getSoundTouch().setPitchSemiTones(pitchTone); SoundTouch.getSoundTouch().receiveSamples(mbyte,INPUT_LENGTH); byteArray.add(mbyte); l=byteArray.size(); } else{ mAudioTrack.write(byteArray.getFirst(),0,64); byteArray.removeFirst(); l=byteArray.size(); }
代碼中加粗的三個函數putSamples,setPitchSemiTones,receiveSamples.這三個都是native方法,在SoundTouch庫中分別通過SoundTouch類提供的對應函數實現,
通過put和receive兩個函數,mbyte這個數據塊中的音頻數據就實現了變聲,變聲的效果是通過中間的函數setPitchSemiTones()設置的。這里為了實現實時變聲,我采用
了LinkedList作為一個緩沖區,l是其長度,當小於20時添加到byteArray的末尾,同時AudioTrack不斷讀取數組中的第一個元素來播放然后刪除該元素,這樣實現了實時的播放。
最后播放完要記得釋放mAudioTrack和mAudioRecorder。通過stop和release方法實現。
3.IOS實現變聲
因為本人之前沒接觸過ios所以做起來遇到了不少問題,還好最后解決了。
ios里面的音頻處理比起安卓來說感覺要麻煩一些,用到的核心api就是AudioQueue,正在使用之前一定要好好理解一下它的原理,跟安卓不同的是ios播放和錄音都是用的這個api。就相當於它一個東西實現了安卓中AudioRecorder和AudioTrack的功能,只不過在播放和錄音過程中內部的流程有所變化。
核心思想:
Audio里面有自帶的一個隊列,首先用戶創建若干個(3-6個左右都行)緩沖器用來裝填音頻數據,在自帶隊列中播放或錄音完后使用用戶自定義的回調函數進行處理,使得緩沖器能夠被重新利用,並且可以在回調函數中實現用戶自定義的一些功能,比如變聲,寫入文件等等操作。官方給了說明圖比較詳細,需要着重理解一下。
首先是錄音的流程圖:
然后是播放的流程圖:
如何變聲呢?
ios的變聲不需要安卓的jni,因為oc語言可以和c++混編,所以這點相對來說要簡單許多。流程如下:
首先在你的程序中實例化一個SoundTouch類,然后在初始化時將它的參數設置好(setSetting),之后在上面所述的回調函數里面就可以將錄音得到的數據流進行處理然后選擇保存到文件或者直接播放。思路就是這樣,但是里面的函數的參數相對還是比較繁瑣的,前面原理沒理解的話這邊就很難做下去了。
實時播放?
思路同Android,可以寫一個循環隊列用來緩存音頻數據,然后邊錄音往里面傳數據邊播放,跟安卓不同的是這些操作需要放到相應的回調函數里面來實現,有個簡單的辦法是在錄音的回調函數里面直接播放pcm數據。因為數據是一塊一塊的進來的,每使用完一次緩沖器才會調用一次回調函數,可以直接在回調函數里面進行播放。
以上就是兩個平台上實現錄音和實時播放的簡單介紹,這里面的東西還是蠻多的,值得深入研究。