時間戳音視頻同步【】【】【非常好】

采樣頻率是指將模擬聲音波形進行數字化時，每秒鍾抽取聲波幅度樣本的次數。

正常人聽覺的頻率范圍大約在20Hz~20kHz之間，根據奈奎斯特采樣理論，為了保證聲音不失真，采樣頻率應該在40kHz左右。常用的音頻采樣頻率有8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz、48kHz等，如果采用更高的采樣頻率，還可以達到DVD的音質

對采樣率為44.1kHz的AAC音頻進行解碼時，一幀的解碼時間須控制在23.22毫秒內。

音頻幀的播放時間=一個AAC幀對應的采樣樣本的個數/采樣頻率(單位為s)

一幀 1024個 sample。采樣率 Samplerate 44100KHz，每秒44100個sample, 所以根據公式音頻幀的播放時間=一個AAC幀對應的采樣樣本的個數/采樣頻率

例如：sample_rate = 44100HZ時，計算出的時長為26.122ms，這就是經常聽到的mp3每幀播放時間固定為26ms的由來。

有很多的采集卡，攝像頭，在做采集的時候，明明設置的25FPS，但實際采集數據回調過來，發現並不是40毫秒（1s=1000ms； 1000ms / 25 = 40 ms）的間隔，而是50，60，甚至100不等的時間間隔。這就給編碼后打時間戳帶來很大的困難。

在libav里，我們的默認編碼參數都是：

ptAvEncoder->ptAvStreamVideo->codec->time_base.den = s32Fps; //s32Fps是幀率

ptAvEncoder->ptAvStreamVideo->codec->time_base.num = 1;

這樣在編碼后的時間戳以1遞增，只適合於固定幀率。

我們來改一下：

ptAvEncoder->ptAvStreamVideo->codec->time_base.den = s32Fps * 1000;

ptAvEncoder->ptAvStreamVideo->codec->time_base.num = 1* 1000;

這樣就把時間戳的scale變成了毫秒，就可以以毫秒為單位進行計算了，如下：

tAvPacket.pts = ((s64)u32TimeStamp * (s64)s32Fps);

u32TimeStamp是從開始記錄的時間差值，以毫秒為單位；s32Fps是幀率。

對於音頻，mp4文件默認是采樣率為tick的，時間戳計算為：

tAvPacket.pts = (AvEncoderAudioInSizeGet(hHandle) * ( (s64)(u32TimeStamp)) / (AvEncoderAudioInSizeGet(hHandle) * 1000 / ptAvEncoder->ptAvStreamAudio->codec->sample_rate);

AvEncoderAudioInSizeGet(hHandle) 每次編碼器需要的PCM數據長度。

u32TimeStamp是從開始記錄的時間差值，以毫秒為單位。

ptAvEncoder->ptAvStreamAudio->codec->sample_rate PCM采樣率，代表一秒的數據量。

因為乘以了1000，所以也化成了毫秒單位。

=============示例AVInputFormat mio===========

音頻基本信息初始化(read_header)：

st->codecpar->codec_type = AVMEDIA_TYPE_AUDIO;
st->codecpar->codec_id = AV_CODEC_ID_PCM_S16LE;
st->codecpar->sample_rate = 48000;
st->codecpar->channels = 2;
avpriv_set_pts_info(st, 64, 1, AV_TIME_BASE); /* 64 bits pts in us */
// to assume AAC encode
md->a_frame_duration = AV_TIME_BASE * 1024 / st->codecpar->sample_rate; //每個音頻幀的時長

給音頻幀打時間戳(read_packet):

int64_t ats = 0;

av_init_packet(&pkt);
pkt.pts = (ats += a_frame_duration); //計算方式其實跟上面 pts = inc++ * (frame_size * 1000 / sample_rate)一樣
pkt.dts = pkt.pts;
pkt.data = (uint8_t *)abuf;
pkt.size = rtval;
pkt.stream_index = audio_index;

====視頻基本信息的初始化==

st->codecpar->codec_type = AVMEDIA_TYPE_VIDEO;
st->codecpar->width = vhcnt;
st->codecpar->height = vvcnt;
st->codecpar->codec_id = AV_CODEC_ID_RAWVIDEO;
st->codecpar->format = AV_PIX_FMT_UYVY422;
st->codecpar->codec_tag = MKTAG('U', 'Y', 'V', 'Y');
st->time_base = av_make_q(1, 25); //25: 幀率
st->avg_frame_rate = av_inv_q(st->time_base);
md->v_frame_duration = av_q2d(st->time_base) * AV_TIME_BASE; //每個視頻幀的時長
avpriv_set_pts_info(st, 64, 1, AV_TIME_BASE); /* 64 bits pts in use */

給視頻幀打時間戳（read_packet）:

int64_t vts = 0;

av_init_packet(&pkt);
pkt.pts = (vts += v_frame_duration);
pkt.dts = pkt.pts;
pkt.data = (uint8_t *)vbuf;
pkt.size = rtval;
pkt.stream_index = video_index;

時間戳音視頻同步【】【】【非常好】

音頻

AAC一幀可以解析出的音頻時長

（一個aac幀是由1024個樣本組成的，一秒內aac的采樣次數是44.1k次，所以一個aac幀的時長是1*1024/44.1k, 單位為秒）

MP3一幀可以解析出的音頻時長

【采樣位數】

【交錯模式】

【非交錯模式】

視頻、音頻打時間戳的方法

免責聲明！

時間戳 音視頻同步【】【】【非常好】

音頻

AAC一幀可以解析出的音頻時長

（一個aac幀是由1024個樣本組成的，一秒內aac的采樣次數是44.1k次，所以一個aac幀的時長是1*1024/44.1k, 單位為秒）

MP3一幀可以解析出的音頻時長

【采樣位數】

【交錯模式】

【非交錯模式】

視頻、音頻打時間戳的方法

免責聲明！

時間戳音視頻同步【】【】【非常好】