- 人耳能聽到自然界的聲音是20HZ-20KHZ,一般高保真音質采樣率只有達到最高采樣率的2倍以上即可,平時電話采樣率8KHZ,CD音質的采樣率44.1KHZ。
- IBM 的Watson的音頻轉文字接口支持的音頻文件類型為wav、flac、opus,其中前面兩個是無損壓縮算法,后面一個opus是最新的有損壓縮算法。
- 常見的有損音頻算法是MP3,它是MEPG1的音頻編碼算法,在互聯網音頻有廣泛的應用。然后再MPEG2、MPEG4推薦的音頻編碼算法是AAC,同樣碼率下比Mp3的音質更好,同樣音質下比MP3的文件更小些。而opus是最新出的開源音頻編碼算法,擁有更好的壓縮比。晚上試了一下用ffmpeg將同樣的mp4文件轉換成AAC或opus格式,默認參數情況下opus文件格式只有AAC的2/3。
-
常見的編碼模式:VBR(Variable Bitrate)動態比特率 也就是沒有固定的比特率,壓縮軟件在壓縮時根據音頻數據即時確定使用什么比特率,這是以質量為前提兼顧文件大小的方式,推薦編碼模式;ABR(Average Bitrate)平均比特率 是VBR的一種插值參數。LAME針對CBR不佳的文件體積比和VBR生成文件大小不定的特點獨創了這種編碼模式。ABR在指定的文件大小內,以每50幀(30幀約1秒)為一段,低頻和不敏感頻率使用相對低的流量,高頻和大動態表現時使用高流量,可以做為VBR和CBR的一種折衷選擇。CBR(Constant Bitrate),常數比特率 指文件從頭到尾都是一種位速率。相對於VBR和ABR來講,它壓縮出來的文件體積很大,而且音質相對於VBR和ABR不會有明顯的提高。