「視頻直播技術詳解」系列之一：采集

本文轉載自查看原文 2016-11-04 16:22 1917 視頻直播/ 移動開發

關於直播的技術文章不少，成體系的不多。我們將用七篇文章，更系統化地介紹當下大熱的視頻直播各環節的關鍵技術，幫助視頻直播創業者們更全面、深入地了解視頻直播技術，更好地技術選型。

本系列文章大綱如下：

（一）采集

（二）處理

（三）編碼和封裝

（四）推流和傳輸

（五）延遲優化

（六）現代播放器原理

（七）SDK 性能測試模型

本篇將重點聊聊：采集。

采集是整個視頻推流過程中的第一個環節，它從系統的采集設備中獲取原始視頻數據，將其輸出到下一個環節。視頻的采集涉及兩方面數據的采集：音頻采集和圖像采集，它們分別對應兩種完全不同的輸入源和數據格式。

采集內容

1.音頻采集

音頻數據既能與圖像結合組合成視頻數據，也能以純音頻的方式采集播放，后者在很多成熟的應用場景如在線電台和語音電台等起着非常重要的作用。音頻的采集過程主要通過設備將環境中的模擬信號采集成 PCM 編碼的原始數據，然后編碼壓縮成 MP3 等格式的數據分發出去。常見的音頻壓縮格式有：MP3，AAC，HE-AAC，Opus，FLAC，Vorbis (Ogg)，Speex 和 AMR等。

音頻采集和編碼主要面臨的挑戰在於：延時敏感、卡頓敏感、噪聲消除（Denoise）、回聲消除（AEC）、靜音檢測（VAD）和各種混音算法等。

在音頻采集階段，參考的主要技術參數有：

采樣率（samplerate）：采樣就是把模擬信號數字化的過程，采樣頻率越高，記錄這一段音頻信號所用的數據量就越大，同時音頻質量也就越高。
位寬：每一個采樣點都需要用一個數值來表示大小，這個數值的數據類型大小可以是：4bit、8bit、16bit、32bit 等等，位數越多，表示得就越精細，聲音質量自然就越好，而數據量也會成倍增大。我們在音頻采樣過程中常用的位寬是 8bit 或者 16bit。
聲道數（channels）：由於音頻的采集和播放是可以疊加的，因此，可以同時從多個音頻源采集聲音，並分別輸出到不同的揚聲器，故聲道數一般表示聲音錄制時的音源數量或回放時相應的揚聲器數量。聲道數為 1 和 2 分別稱為單聲道和雙聲道，是比較常見的聲道參數。
音頻幀（frame）：音頻跟視頻很不一樣，視頻每一幀就是一張圖像，而從上面的正玄波可以看出，音頻數據是流式的，本身沒有明確的一幀幀的概念，在實際的應用中，為了音頻算法處理/傳輸的方便，一般約定俗成取 2.5ms~60ms 為單位的數據量為一幀音頻。這個時間被稱之為“采樣時間”，其長度沒有特別的標准，它是根據編解碼器和具體應用的需求來決定的。

根據以上定義，我們可以計算一下一幀音頻幀的大小。假設某音頻信號是采樣率為 8kHz、雙通道、位寬為 16bit，20ms 一幀，則一幀音頻數據的大小為：

size = 8000 x 2 x 16bit x 0.02s = 5120 bit = 640 byte

2.圖像采集圖像采集的圖片結果組合成一組連續播放的動畫，即構成視頻中可肉眼觀看的內容。圖像的采集過程主要由攝像頭等設備拍攝成 YUV 編碼的原始數據，然后經過編碼壓縮成 H.264 等格式的數據分發出去。常見的視頻封裝格式有：MP4、3GP、AVI、MKV、WMV、MPG、VOB、FLV、SWF、MOV、RMVB 和 WebM 等。

圖像由於其直觀感受最強並且體積也比較大，構成了一個視頻內容的主要部分。圖像采集和編碼面臨的主要挑戰在於：設備兼容性差、延時敏感、卡頓敏感以及各種對圖像的處理操作如美顏和水印等。

在圖像采集階段，參考的主要技術參數有：

圖像傳輸格式：通用影像傳輸格式（Common Intermediate Format）是視訊會議（video conference）中常使用的影像傳輸格式。
圖像格式：通常采用 YUV 格式存儲原始數據信息，其中包含用 8 位表示的黑白圖像灰度值，以及可由 RGB 三種色彩組合成的彩色圖像。
傳輸通道：正常情況下視頻的拍攝只需 1 路通道，隨着 VR 和 AR 技術的日漸成熟，為了拍攝一個完整的 360° 視頻，可能需要通過不同角度拍攝，然后經過多通道傳輸后合成。
分辨率：隨着設備屏幕尺寸的日益增多，視頻采集過程中原始視頻分辨率起着越來越重要的作用，后續處理環節中使用的所有視頻分辨率的定義都以原始視頻分辨率為基礎。視頻采集卡能支持的最大點陣反映了其分辨率的性能。
采樣頻率：采樣頻率反映了采集卡處理圖像的速度和能力。在進行高度圖像采集時，需要注意采集卡的采樣頻率是否滿足要求。采樣率越高，圖像質量越高，同時保存這些圖像信息的數據量也越大。

以上，構成了一個視頻采集的主要技術參數，以及視頻中音頻和圖像編碼的常用格式。而對於直播 App 開發者來說，了解這些細節雖然更有幫助，但實際開發過程中可能很少能夠關注采集環節中技術參數的控制，而是直接在 SDK 中將采集后的數據傳遞給下一個「處理」和「編碼」環節。

采集源

1.攝像頭采集

對於視頻內容的采集，目前攝像頭采集是社交直播中最常見的采集方式，比如主播使用手機的前置和后置攝像頭拍攝。在現場直播場景中，也有專業的攝影、攝像設備用來采集。安防監控場景中也有專業的攝像頭進行監控采集。

目前七牛提供的 SDK 對以上兩類攝像頭的采集都支持，對於手機，iOS 和 Android 分別支持前置后置攝像頭的采集，只是 iOS 由於設備種類和系統版本不多，因此采集模塊兼容性較好；而 Android 需要適配的硬件設備和系統則非常多，目前支持 Android 4.0.3 及以上的攝像頭采集。對於專業攝像機或者攝像頭，七牛雲提供了兼容適合嵌入式系統的 C 語言采集模塊的實現，歡迎參考使用：GitHub - pili-engineering/ipcam_sdk

2.屏幕錄制

屏幕錄制采集的方式在游戲直播場景中非常常見，目前我們在 Android SDK 中實現了屏幕錄制的功能。而 iOS 則由於系統本身沒有開放屏幕錄制的權限而沒法直接操作，但對於 iOS 9 以上的版本，是有個取巧的辦法，可以通過模擬一個 AirPlay 鏡像連接到（當前 App）自身，這樣就可以在軟件上捕獲到屏幕上的任何操作，達到錄制屏幕的效果。

在教育直播或者會場演講場合，我們經常看見需要錄制電腦桌面上 PPT 的場景，針對這種場景，目前市面上比較方便的方案是使用開源的桌面推流工具 OBS 來進行屏幕錄制和推流：Open Broadcaster Software

3.從視頻文件推流

除了從硬件設備采集視頻進行推流之外，我們也可能需要將一個視頻或者音頻文件以直播流的形式實時傳輸給觀眾，比如在線電台或者電視節目，它們的輸入可能直接來自於一些已經錄制剪輯好的視頻內容。

開放式設計

以上從采集內容和采集源兩個維度分別介紹了視頻采集相關的知識，但對於采集源來說，市場上可見的采集源遠遠不止這三種，即便是攝像頭也有很多分類。對於一個完整的覆蓋推流、傳輸和播放三個環節的直播雲服務來說，支持盡可能多的采集源和播放終端是一項既無法規避也很難完成的工作。

為了支持市場上所有采集源的接入，我們在 SDK 中采用了開放式的設計，只要采集源實現方遵循相應的接口，即可支持任意的采集源。

圖中我們把采集的內容分為圖像和音頻，其中圖像的采集源包含攝像頭、屏幕錄制或者本地的視頻文件，甚至是其它需要重新定義和實現的采集源。而音頻的采集源包含麥克風、系統聲音或者本地音頻文件，當然也可以為它定義別的輸入源。

這樣設計最大的好處在於，可以以輕量的設計方式支持豐富的采集源，而采集源的具體實現也可以交給使用者。

在下一篇連載中，我們將詳細介紹下直播中的處理環節，解答如何滿足市場上主播的各種需求如美顏、水印、連麥互動等。

敬請期待！

本文作者：陶澤宇@七牛直播雲工程師，更多雲行業技術洞見請訪問七牛雲博客。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。