Speex manul中文版


在VOIP的音頻算法中,回音處理已經成為一個關系通話質量的主要問題。

回聲的產生在IP網絡主要有兩種:
1.聲學回聲
2.電路回聲

聲學回聲主要又分成以下幾種:
a ) 直接回聲:由揚聲器產生的聲音未經任何反射直接進入麥克風
b ) 間接回聲: 由揚聲器發出的聲音經過多次反射后,再進入Mic
對於第二種回聲,擁有多路徑,時變性的特點.是比較難處理的.

由於IP網絡下的傳輸的延遲較大,而一般情況下,對於人耳,如果聲音延遲達到了10ms以上的話,那么回聲就會越來越明顯.
一般來講,VOIP中的聲音延遲主要來自於幾個方面:
1. 編碼延遲: 一般情況下編碼算法在聲音壓縮時都會產生延遲,就我們采用的Speex來講,延遲大概在20ms左右
2. 處理延遲, 封裝時延, 緩沖時延等
3. 在IP網絡中數據的傳輸過程也會照成延時.這由當前的網絡狀況決定.

回聲消除的模型:
a) 建立遠端聲音模型,進行回聲估計, 從采集的值中減去估計值
b) 聲學模型

Speex manul(手冊)中文版

Speex是一套專門用於壓縮聲音的庫,由於其專門針對聲音,所以壓縮聲音的性能非常高.Speex由於其壓縮性能,0.80版后的跨平台的性能,所以在網絡聲音的傳輸中有很大的價值.但是需要注意的是speex只能對聲音進行壓縮,不支持音樂的壓縮,如果你需要音樂的壓縮你或許需要用vorbis.

       但是的speex資料像其它大都數專用庫一樣,並沒有大多的中文資料.所以在這里我決定將里面最核心的編程技術翻譯出來.一來是練習練習自己翻譯資料的能力,二來是方便一些英語水平較差的朋友.由於本人能力有限,有些感覺有出入或難理解的地方可以去speex的官方網站www.speex.org找到英文原版的說明.

翻譯的一些說明:

1,對於一些專有名詞如speex,api不過行翻譯

2,對於一些新概念翻譯,以及其它的翻譯過來也許會產生歧義的文字,用中/英兩種方式標出:

       :對話(speech),位采集(bit_packing)

3,基本做到和英文原行對譯.及英文原文一行,中文翻譯過來也是一行,使翻譯后的文章和原文基本行行對照.

4,源代碼不翻譯,SpeexBits bits;

5,語言中的關健字不譯,float

6,一此不是關健字但英文通常出現的詞第一次以中/英文格式給出,之后按具體情況給出英文或中文,:frame(),

7,對一些有自己翻譯起來感覺有歧義的地方,加斜線作標記 

1,speex的介紹(略)

2特征描述

這個章節展示了speex的主要特征,以衣一些關於對話(speech)編碼的一個概念,以便

幫助我們更好的了解下一章節.

取樣率(Sampling rate)

Speex主要是設計了三種不同的取樣率:8kHz,16kHz,32kHz.這些分別代表了窄寬(narrowband),

多頻率,超聲.

質量

Speex編碼大都數時間是被一個范圍為010的質量參數來控制  .在一個比特率為常量(CBR)的操作中,質量參數是一個整數,而對於變動的比特率(VBR)參數是一個float;

復雜性(變量)

speex,你可以將編碼設置成允許的復雜度.這由一個范圍為110的整數來控制完成,就像你用選項-1-9來控制gzipbzip2的壓縮質量.在通常的運用中,噪聲級別的復雜度1是在12dB之間,比復雜度10要高,但是CPU需要復雜度10大概5倍高行復雜度1.在實踐中,最好的是設置在24之間,盡管更高的設定通常有用,當編碼一個非對話聲音(non-speech sounds)DTMF語調(tones).

變波特率(VBR

Variable bit-rate (VBR) allows a codec to change its bit-rate dynamically to adapt to

變波特率(VBR)允許編碼動態地改變它的波特率以適應聲音編碼的難度”.speex舉例來說,

像元音(vowel)和瞬間高音(high-enenrg transients)需要個高的比特率來

取得一個不錯的質量,

而摩擦音(fricative)可以被充分地用相對較少的字節來進行編碼.

由於上面這個原因,VBR可以調節到一個低的比特率卻達到一個同樣的質量,或者用

某個比特率達到更好的質量.盡管有上面這些優點,但是VBR也有兩個主要的缺點.

首先,僅僅靠指定質量值,這里沒有一個關於最后平均比特率的保證.(譯者注:作者大概是想說沒有什么明確的方法知道質量值)此外,對一些即時

通信,IP電話(VoIP)這種包含着最大的比特率的,必須把比特率設為足夠低以適應

傳輸通道.

r

平均比特率(ABR)

平均比特率通過動態地調節VBR質量去得到一個確定的目標的比特率,從而解決了VBR中的一個問題..因為質量/比特率被即時的調整了,整體質量將會稍稍低於由VBR對一個

設置得和目標平均比特率非常接近的質量數編碼得到的結果.

 

聲音生動性檢測(VAD)

聲音生動性檢測將會發覺音頻正在被編碼成對話,靜音,或背景噪音.VAD總在用VBR進行編碼時暗中起作用,因此選項僅僅對一個不是VBR的操作起作用.對於不是VBR的操作來說,speex察覺出一個不屬於對話的周期,然后對它用足夠的字節重新生成為背景噪音.不這叫做舒適的噪音生成(CNG).

不連續傳輸(DTX)

不連續傳輸是VAD/VBR操作的一個額外選項,當背景噪音一定時,它可以完整地傳輸.因為在基於文件的操作中,我們不能停止對文件進行寫入,所以只有5字節被這種幀所運用.(250bps通信)

Perceptual enhancement

知覺增強

知覺增加是解碼的一部分,它在打開的時候用來減少由編碼解碼所產生的噪音.在大都數

情況下,知覺增強在客觀上使聲音離原始值更遠(如果用SNR),但是在最后它仍然聽起來更好(主觀上的改進)

Algorithmic delay

遲時算法

每一個聲音編碼導致了在傳輸上的延時.對於speex,這種延時等於frame的大小加上一些

數量的需要對每一幀進行的前瞻(”look-adhead”).

在窄寬操作中(8kHz),遲時是30ms,而對於多頻率(2-44Hz),遲時是34ms.這些值

不包括CPU編碼,解碼幀的時間. 

speex編程(the libspeex api)

這個章節出要講述了如何用speex api進行編程.例子的源代友你也可以在附錄B中找到

4.1 Encoding

4.1壓縮

為了用Speex壓縮對話,你首先需要引用頭文件:

#include <speex.h>

然后你需要定義一個Speex的位采集(bit-packing)結構

SpeexBits bits;

and a Speex encoder state

以及定義一個speex編碼器狀態量

void *enc_state;

上面定義的這樣被初始化:

The two are initialized by:

speex_bits_init(&bits);

enc_state = speex_encoder_init(&speex_nb_mode);

為了支持多頻率的壓縮,speex_nb_mode將被sppex_wb_mode取代.在大都數

情況下,你需要知道你用的模式(mode)的幀(frame)的大小,你可以得到在frame_size變量里得到這值:

speex_encoder_ctl(enc_state,SPEEX_GET_FRAME_SIZE,&frame_size);

一但初始化完畢,對於每一個輸入幀:

speex_bits_reset(&bits);

speex_encode(enc_state, input_frame, &bits);

nbBytes = speex_bits_write(&bits, byte_ptr, MAX_NB_BYTES);

上面input_frame是一個指向對話(speech)(frame)float指針(pointing);byte_ptr

是指向編碼幀開始寫的地方的char指針,MAX_NB_BYTES是能

寫進byte_ptr而不會造成溢出的最大數.nbBytes是一個實際寫入btye_ptr的數,即編碼的實際大小

在調用speex_bits_write,可能你需要調用speex_bits_nbytes(&bits)得到需要寫入(write)的字節大小.

在你已經編碼后,釋放所有的資源.

speex_bits_destroy(&bits);

speex_encoder_destroy(enc_state);

That’s about it for the encoder.

 

這就是關於編碼的方面.

 

Speex manul中文版三

附源代碼的翻譯:

B Sample code

例程源代碼

這個章節演示了一段用speex編碼,解碼對話(speech)的源代碼.

可以如下用api命令來編碼並解碼一個文件:

譯者注:這里說的api命令是指unix的用”|”進行管道寫入讀出.windows下這樣並不能實現.

% sampleenc in_file.sw | sampledec out_file.sw

這里這兩段代碼都沒有引用其它的頭文件,並以16 比特率(bits)進行編碼

natural endianness).

B.1 sampleenc.c

Sameleenc 用一個未加工的16比特率(bits)文章,給它編碼並產生一個speex (steam)給標准輸出.注意已壓縮的和speexenc/speexdec不和諧!

#include <speex.h>

#include <stdio.h>

/*幀的大小在這個例程中是一個固定的值,但它並不是必須這樣*/

 

#define FRAME_SIZE 160

int main(int argc, char **argv)

{

char *inFile;

FILE *fin;

short in[FRAME_SIZE];

float input[FRAME_SIZE];

char cbits[200];

int nbBytes;

/*保存編碼的狀態*/

void *state;

/*保存字節因此他們可以被speex常規讀寫*/

 

SpeexBits bits;

int i, tmp;

//新建一個新的編碼狀態在窄寬(narrowband)模式下

state = speex_encoder_init(&speex_nb_mode);

//設置質量為8(15kbps)

tmp=8;

speex_encoder_ctl(state, SPEEX_SET_QUALITY, &tmp);

inFile = argv[1];

fin = fopen(inFile, "r");

//初始化結構使他們保存數據

speex_bits_init(&bits);

while (1)

{

//讀入一幀16bits的聲音

fread(in, sizeof(short), FRAME_SIZE, fin);

if (feof(fin))

break;

//16bits的值轉化為float,以便speex庫可以在上面工作

for (i=0;i<FRAME_SIZE;i++)

input[i]=in[i];

//清空這個結構體里所有的字節,以便我們可以編碼一個新的幀

speex_bits_reset(&bits);

//對幀進行編碼

speex_encode(state, input, &bits);

//bits拷貝到一個利用寫出的char型數組

nbBytes = speex_bits_write(&bits, cbits, 200);

//首先寫出幀的大小,這是sampledec文件需要的一個值,但是你的應用程序中可能不一樣

fwrite(&nbBytes, sizeof(int), 1, stdout);

//寫出壓縮后的數組

fwrite(cbits, 1, nbBytes, stdout);

}

//釋放編碼器狀態量

speex_encoder_destroy(state);

//釋放bit_packing結構

speex_bits_destroy(&bits);

fclose(fin);

return 0;

}

 

 

在Speex(www.speex.org)的最新版本中,開始集成了回音消除的模塊,而回音消除一直是Voip之中亟待解決的主要問題。
很多朋友和我說speex的aec模塊的效能並不好,我們先來看一下speex的aec的api調用方式。

/*
*創建AEC對象
*/
SpeexEchoState *echo_state = speex_echo_state_init(frame_size, filter_length);

frame_size 的取值最好是一個編碼的frame大小, 在低帶寬條件下,一般延遲20ms,而大小為160
filter_length,最好是房間內反射時間的1/3
如: 一個房間的反射時延為300ms
    那么這個filter_length就最好是100ms(這個長度又被稱為tail length).

而其中filter_length的設定是一個關鍵。

/*
*執行AEC
*/
speex_echo_cancel(echo_state, input_frame, echo_frame, output_frame, residue);

其中:
input_frame: 就是被聲卡捕捉到的聲音
echo_frame: 是由揚聲器播放出的聲音,這個聲音是需要從 input_frame中抵消的聲音.

output_frame 是處理完以后輸出的聲音

residue是一個可選參數,如果不使用可以將之設置為NULL, 也可以通過preprocessor 來控制

問題的關鍵是 處理input和echo 之間的關系,
也就是說在捕捉到的信號和播放的信號之間的延遲必須足夠的小,才可以提高效率.

writetosndcard(echo_frame, frame_size)
readfromsndcard(input_frame, frame_size)
speex_echo_cancel(echo_state, input_frame, echo_frame, output_frame, residue)
如果你想要盡可能的減小信號中的回音,那么可以將residue這個參數設置為噪音參數.

我相信在大多數情況下,都是因為聲音捕捉和聲音播放之間的同步問題沒有處理好,導致的音頻質量下降。

/*
*銷毀和復位
*/
speex_echo_state_destroy(echo_state);

speex_echo_state_reset(echo_state);
不再復述了!

說明:
據說在Speex的最新的1.2beta版本上,Speex提供了可選擇的,簡化的API,來提高echo執行過程中的同步問題。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM