相機模型與視覺測距

本文轉載自查看原文 2021-12-01 16:47 197 相機圖像算法原理

相機模型與視覺測距：

一、相機數學模型

從世界坐標系到相機坐標系

假設在某間房子中放了一台相機拍照。為了方便測量，我們以房子的某處牆角為原心建立直角坐標系，即世界坐標系。為了研究相機模型，要做的第一步就是將世界坐標系轉化為以相機光心為原點的相機坐標系，以相機的視角來“看”外部世界。

從世界坐標系 $x_wy_wz_w$ 到以相機光心為坐標原點的 $x_cy_zz_c$ 的相機坐標系，實際上就是一個三維直角坐標系的旋轉與平移變換，可以表示為：

$\begin{pmatrix} x_c \\ y_c \\ z_c\\ \end{pmatrix} =R_{3\times3} \begin{pmatrix} x_w \\ y_w\\ z_w \\ \end{pmatrix} +T_{3\times1} \tag{1}$

寫成齊次坐標矩陣乘法形式：

$\begin{pmatrix} x_c \\ y_c \\ z_c\\ 1 \\ \end{pmatrix} =\begin{bmatrix} R_{3\times3} & T_{3\times1} \\ 0^T &1 \\ \end{bmatrix} \begin{pmatrix} x_w \\ y_w\\ z_w\\ 1 \\ \end{pmatrix} = \begin{bmatrix} r_{11} & r_{13} & r_{13} & t_x \\ r_{21} & r_{22} & r_{23} & t_y \\ r_{31} & r_{32} & r_{33} & t_z \\ 0 & 0 & 0 & 1 \end{bmatrix}\begin{pmatrix} x_w \\ y_w\\ z_w\\ 1 \\ \end{pmatrix}\tag{2}$

需要特別注意的是，其中旋轉矩陣 $R$ 是正交矩陣（即 $RR^T=R^TR=I$ ， $I$ 是單位矩陣），這是一個非常重要的性質。

為何 $R$ 是正交矩陣？這里從簡單的情形說起。如下圖將坐標系繞 $z$ 軸旋轉 $\alpha$ 角，用矩陣可以表示為：

$x' =x \cdot \text{cos}\alpha-y\cdot\text{sin}\theta \\ y' =x \cdot \text{sin}\alpha+y\cdot\text{cos}\alpha \\ z' = z \\$

用矩陣可以表示為

$\begin{pmatrix} x' \\ y' \\ z' \end{pmatrix} = \begin{bmatrix} \text{cos}\alpha & -\text{sin}\alpha & 0\\ \text{sin}\alpha & \text{cos}\alpha & 0 \\ 0 & 0 & 1 \end{bmatrix} \begin{pmatrix} x \\ y \\z \\ \end{pmatrix}\Rightarrow R =\begin{bmatrix} \text{cos}\alpha & -\text{sin}\alpha & 0\\ \text{sin}\alpha & \text{cos}\alpha & 0 \\ 0 & 0 & 1 \end{bmatrix} \tag{3}$

顯然有 $RR^T=R^TR=I$ 成立。更復雜情況類似，感興趣的朋友可以自行探索。

從相機坐標系到成像平面坐標系

現在已經以相機的視角看外部世界了，接下來要做的就是將外部世界的點投影在成像平面上。假設在光心 $o_c$ 后距離 $f$ 處有一個接收並記錄光信號的傳感器，那么傳感器所在的平面就是成像平面。這里的 $f$ 就是相機的物理焦距（單位：米）。

這是一個將三維空間中的點 $(x_c,y_c,z_c)$ 通過光心 $o_c$ 投影到成像平面的過程，並在成像平面形成倒像。這里有一個問題，為何平時我們用手機、數碼相機拍照時生成的圖片不是倒的？這是由於手機、數碼相機等拍照設備內部軟件在處理時做了自動翻轉。

等效成像平面（虛像）

從側面看上述模型，在光心前方 $f$ 位置存在一個與成像平面對稱的等效成像平面（等效成像平面中的像與成像平面的像大小一樣且相反）。由於成像平面中的像是倒像（需要添加負號，不方便數學描述），我們不妨在等效成像平面看，並建立坐標系 $x_ny_n$ 。

那么在上圖中，由相似三角形原理可以得出：

$x_n = f\frac{x_c}{z_c}\tag{4}$

$y_n=f\frac{y_c}{z_c}\tag{5}$

將上式整理寫成齊次坐標矩陣乘法形式：

$z_c\begin{pmatrix} x_n \\ y_n \\ 1 \end{pmatrix}=\begin{bmatrix} f &0&0 & 0 \\ 0 & f & 0 & 0 \\ 0 & 0 & 1 & 0 \end{bmatrix}\begin{pmatrix} x_c \\ y_c \\ z_c\\ 1 \end{pmatrix}\tag{6}$

從成像平面坐標系到像素坐標系

對於現在的數字相機，一般使用CMOS或CCD作為傳感器將光信號轉換為電信號，並記錄下來生成數字圖像。與傳統膠片不同，這類傳感器是由一個個感光原件組成的。在工作時每個感光原件獨立記錄自己所接收到的光信號，導致生成的數字圖像是離散的。簡單說，數字圖像就是一個由離散像素點組成的矩陣。

那么從成像平面坐標系 $x_ny_n$ 到像素坐標系 $uv$ 就是一個離散化的過程。之前所有坐標系（包括世界坐標系 $x_wy_wz_w$ 、相機坐標系 $x_cy_cz_c$ 、成像平面坐標系 $x_ny_n$ ）的單位都是連續的“米”，而 $uv$ 像素坐標系的單位是離散的“像素”。

從 $x_ny_n$ 到 $uv$ 的變換可以表示為：

$\begin{pmatrix} u \\ v \\ 1 \end{pmatrix}=\begin{bmatrix} 1 & 0 & u_0 \\ 0 & 1 & v_0 \\ 0 & 0 & 1 \end{bmatrix}\begin{bmatrix} \frac{1}{dx} & 0 & 0 \\ 0 & \frac{1}{dy} & 0 \\ 0 & 0 & 1 \end{bmatrix}\begin{pmatrix} x_n \\ y_n \\ 1 \end{pmatrix}\tag{7}$

這個變換有兩個步驟組成：

通過 $dx$ 和 $dy$ 將連續坐標量化為像素。其中 $dx$ 和 $dy$ 分別表示每個像素在 $x$ 和 $y$ 方向的實際大小（單位：米/像素），由相機傳感器中每個感光原件大小決定。
由於數字圖像一般習慣以左上角為原點，那么需要將圖像對稱中心從 $o_n$ 位置平移 $(u_0,v_0)$ 像素到左上角點。

這樣，通過幾個步驟相機將世界坐標系 $x_wy_wz_w$ 中的點（單位：米）最終變換為像素坐標系 $uv$ 中的點（單位：像素）。那么最終變換關系是：

$z_c\begin{pmatrix} u \\ v \\ 1 \end{pmatrix}=\begin{bmatrix} \frac{f}{dx}&0&u_0&0 \\ 0 & \frac{f}{dy} & v_0 & 0 \\ 0 & 0 & 1 & 0\end{bmatrix}\begin{bmatrix} R_{3\times3} & T_{3\times1} \\ 0^T &1 \\ \end{bmatrix}\begin{pmatrix} x_w \\ y_w \\ z_w \\ 1 \end{pmatrix}\tag{8}$

其中 $f$ 是相機物理焦距（單位：米）， $dx$ 和 $dy$ 表示每個像素在 $x$ 和 $y$ 方向的實際大小（單位：米/像素）， $u_0$ 和 $v_0$ 表示圖像對稱中心在 $uv$ 像素坐標系中的的位置（單位：像素）。簡記為：

$zp=K[R\ T]P\tag{9}$

或更簡記為：

$zp=MP\tag{10}$

這里的 $K$ 是相機內參矩陣，由相機內部光學物理結構決定。 $K=\begin{bmatrix} \frac{f}{dx}&0&u_0&0 \\ 0 & \frac{f}{dy} & v_0 & 0 \\ 0 & 0 & 1 & 0\end{bmatrix} \tag{11}$

當然由於最后一列為0，也記為：

$K=\begin{bmatrix} f_x&0&u_0 \\ 0 & f_y& v_0 \\ 0 & 0 & 1 \end{bmatrix}\tag{11}$

其中 $f_x=\frac{f}{dx}$ ， $f_y=\frac{f}{dy}$ 。而 $R$ 和 $T$ 是相機外參矩陣，由相機擺放位置決定。顯然相機標定就是計算內、外參矩陣的過程。

二、視覺測距

單目測距（單目距離估計）

那么有一個問題，在已知所有相機參數 $K$ 、 $R$ 和 $T$ 的情況下，能否通過圖像坐標 $p$ 反推出對應的世界坐標 $P$ 呢？

這里我們從幾何關系上看：只要世界中的點 $P$ 在 $\overrightarrow{o_cP_1}$ 射線上，那么最終都會通過相機投影到圖像中的 $p$ 點，所以單攝像頭無法精確測距。相機模型本質是一種從世界坐標系3D->像素坐標系2D的投影變換，在投影變換中丟失了深度 $z$ 信息。

但是有時候我們又特別需要使用單個攝像頭測距：一個典型場景就是在車輛自動駕駛中使用單攝像頭識別前方車輛並測距。一般的做法是加入一定的約束條件后單目估計距離。假設相機 $z_c$ 軸與水平地面平行，到地面高度為 $h$ ，且被測物體在地面上（加入的約束條件）；在相機下方 $h_1$ 距離有一個標定板，上面畫的是與 $x_c$ 軸水平距離的刻度。在測距前首先拍攝一張標定板圖像；當測距時可以根據地面上的物體在圖像中的位置讀取 $d_1$ ，此時可以估計出地面物體與相機真實距離為：

$d=h\frac{d_1}{h_1}\tag{12}$

其中 $h$ 和 $h_1$ 已知，而 $d_1$ 可以從標定板圖像中讀取出來。需要說明，這只是一種估計方法，並非精確計算。

雙目測距

再來看看雙目（即兩個相機）的測距問題。為了簡化問題，假設在同一平面有 $o_c$ 和 $o'_c$ 兩個完全一樣的相機，他們的相機坐標系 $x_c$ 與 $x'_c$ 軸在同一直線上且 $z_c$ 平行於 $z'_c$ 。顯然可以通過測量獲得兩個相機間的距離 $t_x$ ，然后通過標定可以知道相機 $f_x$ 、 $f_y$ 、 $u_0$ 和 $v_0$ 參數。

某寶的雙目測距模塊（左右相機一樣+相機z_c光軸平行）

特別注意，雙目測距要求兩個相機坐標軸 $z_c$ 和 $z'_c$ 平行，否則就是對極幾何問題了。

雙目測距

那么兩個相機分別對遠處距離 $z_c$ 處同一目標拍照得到左、右張兩張圖像。由於視角不同，同一點在兩張圖像像素位置不同，即存在視差 $d=u'-u$ 。

已知相機坐標系 $x_cy_cz_c$ 變換為像素坐標系 $uv$ 的公式為：

$z_c\begin{pmatrix} u \\ v \\ 1 \end{pmatrix}=\begin{bmatrix} f_x&0&u_0&0 \\ 0 & f_y & v_0 & 0 \\ 0 & 0 & 1 & 0\end{bmatrix}\begin{pmatrix} x_c \\ y_c \\ z_c \\ 1 \end{pmatrix}\tag{13}$

其中 $f_x=\frac{f}{dx}$ ， $f_y=\frac{f}{dy}$ 。那么從上式得出，對於左邊的相機：

$z_c\cdot u=f_xx_c+z_c\cdot u_0\tag{14}$

對於右邊的相機：

$z'_c\cdot u'=f_xx'_c+z'_c\cdot u_0\tag{15}$

其中 $z_c=z'_c$ 。上面兩式相減得：

$z_c\cdot d=f_x(x'_c-x_c)\tag{16}$

由於 $x'_c=x_c-t_x$ ，那么有：

$z_c\cdot d=f_x(-t_x)\Rightarrow |z_c|=f_x\cdot |\frac{t_x}{d}|\tag{17}$

其中 $f_x$ 可以通過相機標定獲得， $t_x$ 可以測量獲得， $d$ 可以通過左、右張兩張圖像計算視差獲得，則 $z_c$ 能夠精確計算出來。

雖然可以通過雙目可以精確測距，但是在實際中也存在問題：

雙目測距要求 $z_c$ 和 $z_c'$ 軸平行，測距精度嚴重依賴於 $z_c$ 和 $z_c'$ 的平行程度。
為了計算視差 $d_1$ ，需要匹配世界中同一點 $P_1$ 在左右兩幅圖像中的像素點 $p_1$ 和 $p_1'$ ，即雙目立體匹配。在復雜光照和復雜場景下，如何准確雙目立體匹配本身就是很難的問題。
對於世界中越遠的點 $P_2$ ，其在左右視圖中的視差 $d_2$ 越小，測距結果越容易受到雙目立體匹配誤差影響（即雙目測距精度與被測物體距離成反相關）。

所以，單目估計距離簡單但是不精確，雙目測距精確但是算法復雜且不穩定。

三、深度學習在視覺測距中的發展

當然，目前也有使用深度學習網絡單目距離估計的方法：

https://papers.nips.cc/paper/5539-depth-map-prediction-from-a-single-image-using-a-multi-scale-deep-network.pdfpapers.nips.cc/paper/5539-depth-map-prediction-from-a-single-image-using-a-multi-scale-deep-network.pdf

第一篇使用深度學習單目網絡估計距離的文章發表在NIPS 2014，核心思想就是先得到一個低分辨率的Coarse深度圖，再通過網絡refine得到高精度距離圖。

https://arxiv.org/pdf/1704.02157.pdfarxiv.org/pdf/1704.02157.pdf

到了后來，如CVPR 2017這篇加入多級估計距離方法，即每一級 $\text{crf}(s_i)$ 在上一級 $\text{crf}(s_{i-1})$ 估計的基礎上繼續精細化估計，並且加入條件隨機場CRF修正網絡結果。

Predicting Sharp and Accurate Occlusion Boundaries in Monocular Depth Estimation Using Displacement Fieldsarxiv.org/abs/2002.12730

目前CVPR 2020有文章通過邊緣和邊界來進一步提高深度學習深度估計網絡的結果。

綜合來說，使用深度學習網絡單目距離估計是個是典型的缺乏理論支持的工作，純粹依賴於大型深度學習網絡的擬合能力。目前對於特定的場景（如室內環境，卧室，客廳等），深度學習網絡可以進行較為准確的單目距離估計，但是很難推廣到任意場景。

為了保住頭頂的頭發，建議還是別在工程中用了。。。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 單目相機測距視覺SLAM作業（四）相機模型與非線性優化機器視覺——（二，相機）機器視覺--相機 SLAM入門之視覺里程計(2)：相機模型（內參數，外參數）相機模型與相機標定原理學習筆記：使用opencv做雙目測距（相機標定+立體匹配+測距）. 雙目相機標定以及立體測距原理及OpenCV實現針孔相機模型和相機鏡頭畸變模型 colmap 相機模型及參數